PISA meg her og PISA meg der

Jeg var på TV her om dagen, shang­hai­et inn til Mor­gen­ny­he­te­ne i NRK pga Twit­ter. Inn­sla­get kan du se her. I det føl­gen­de vil jeg for­tel­le hva jeg skul­le ha sagt. Kon­klu­sjo­nen er helt nederst, så les den først om du synes fag­stof­fet blir litt tungt.

Validitet – måler PISA det PISA skal måle?

Begre­pet vali­di­tet er erfa­rings­mes­sig bort­imot umu­lig å for­stå. Men for å ta det enkelt: Hva vet vi når vi vet hva en PISA-skår er? Betyr en høy skår at våre barn kom­mer til å bli flin­ke­re i arbeids­li­vet, gjen­nom­snitt­lig, enn de som skå­rer lave­re? Nep­pe. PISA er ment å måle om ele­ve­ne får lært det PISA mener at det er menin­gen av ele­ve­ne skal lære. PISA og sto­re deler av skole­ver­ket er eni­ge om det­te, og PISA er et svært godt styk­ke hånd­verk (Jeg har lest doku­men­ta­sjo­nen, så det slip­per du. Du kan bare sto­le på meg. Måle­me­to­den er så god som den kan få blitt.)

Vet vi om de tin­ge­ne som blir målt – lesing, mat­te og natur­fag – fak­tisk måler til­stan­den i sko­len rent gene­relt?  Kan det ten­kes at vi er gode i abso­lutt alt, bort­sett fra akku­rat dét?  Og kan det ten­kes at vi lærer noe i sko­len som gjør at selv om vi skå­rer dår­lig akku­rat her, så kla­rer vi oss like­vel når vi får bruk for det?

Vel, nep­pe. Er sko­len dår­lig til å under­vi­se i basis­fag, så får den ikke til noe annet, hel­ler. Det­te er ting man skal få med seg der­som man føl­ger med på sko­len, er rime­lig smart, og sko­len ikke hind­rer en i å lære det.

Endring – er elevene blitt flinkere siden 2006?

Muli­gens, men and­re for­kla­rin­ger er mer sann­syn­lig.

Et test­re­sul­tat er en måling av en pre­sta­sjon i en situa­sjon. Ele­ver er blitt pluk­ket til­fel­dig og skal utgjø­re et repre­sen­ta­tivt utvalg av skole­ele­ver, som så sam­men­lig­nes med hver­and­re.  Tes­ten er svært godt laget, så vi kan reg­ne med at resul­ta­tet er

en svært god, men ikke ufeil­bar­lig, hypo­te­se om hvor­dan det står til.

Hvor­for ikke ufeil­bar­lig? Det har med test-teori å gjø­re. Alt­så hvor­dan tes­ter lages. Skal man fin­ne en sann skår, må man tes­te man­ge gan­ger, og så bereg­ner man gjen­nom­snit­tet. Det er der­for man­ge ele­ver måles. Måler man man­ge nok, kan man reg­ne med at de man har målt, i gjen­nom­snitt skå­rer det alle had­de målt. Da har man sta­tis­tisk sig­ni­fi­kans: Man kan gene­ra­li­se­re fra utval­get til alle.

Det er dog en liten, men ikke usann­syn­lig, risi­ko for at det man har målt ikke er rik­tig. At man har bom­met. At det er et eller annet med utval­get som gjør at resul­ta­tet blir skjevt. Vi vet ikke hva, det får vi bare vite der­som vi under­sø­ker, og ofte kan vi ikke vite. Kan det ha skjedd her?

Betrakt kur­ven, det er målt i 2000, 2003, 2006 og 2009. Nor­ges gjen­nom­snitt­li­ge skår så langt er 498.

1600679_hd2da0a14f2987f34469d_v1291718417_562x450.jpg

 

Hvor langt er det­te fra 500?

Vel, et stan­dard­av­vik på PISA er 100. Det betyr at en gjen­nom­snitt­lig skår er mel­lom 400 og 600. Ca. 68% hav­ner mel­lom 400 og 600. Ca 38.2% hav­ner mel­lom 450 og 550. Skå­rer man 480, er man bed­re enn 42% av de som har tatt tes­ten, og skå­rer man 500, er man bed­re enn 50% av de som har tatt tes­ten.

Er 6% vel­dig mye i den­ne sam­men­hen­gen?

Høres ikke 6% gans­ke mye mind­re ut enn 500 – 480 = 20?

Men vi skår­te ikke, i snitt, så dår­lig som 480 i bunn­året 2006 hel­ler. Snit­tet var 493. Så vi var bed­re enn ca. 46% av alle i 2006, og ellers har vi stort sett vært bed­re enn ca. 49% av alle. Sling­rin­gen er på ca. 3%.

Så er for­skjel­le­ne mel­lom åre­ne reel­le, eller skyl­des de «statiti­sikk», for å si det litt enkelt?

Mest sann­syn­lig er den san­ne skå­ren vår tem­me­lig nær 495, og det er ingen reell for­skjell mel­lom hvert år.

 

 

nb_NONorwegian