Jeg var på TV her om dagen, shanghaiet inn til Morgennyhetene i NRK pga Twitter. Innslaget kan du se her. I det følgende vil jeg fortelle hva jeg skulle ha sagt. Konklusjonen er helt nederst, så les den først om du synes fagstoffet blir litt tungt.
Validitet – måler PISA det PISA skal måle?
Begrepet validitet er erfaringsmessig bortimot umulig å forstå. Men for å ta det enkelt: Hva vet vi når vi vet hva en PISA-skår er? Betyr en høy skår at våre barn kommer til å bli flinkere i arbeidslivet, gjennomsnittlig, enn de som skårer lavere? Neppe. PISA er ment å måle om elevene får lært det PISA mener at det er meningen av elevene skal lære. PISA og store deler av skoleverket er enige om dette, og PISA er et svært godt stykke håndverk (Jeg har lest dokumentasjonen, så det slipper du. Du kan bare stole på meg. Målemetoden er så god som den kan få blitt.)
Vet vi om de tingene som blir målt – lesing, matte og naturfag – faktisk måler tilstanden i skolen rent generelt? Kan det tenkes at vi er gode i absolutt alt, bortsett fra akkurat dét? Og kan det tenkes at vi lærer noe i skolen som gjør at selv om vi skårer dårlig akkurat her, så klarer vi oss likevel når vi får bruk for det?
Vel, neppe. Er skolen dårlig til å undervise i basisfag, så får den ikke til noe annet, heller. Dette er ting man skal få med seg dersom man følger med på skolen, er rimelig smart, og skolen ikke hindrer en i å lære det.
Endring – er elevene blitt flinkere siden 2006?
Muligens, men andre forklaringer er mer sannsynlig.
Et testresultat er en måling av en prestasjon i en situasjon. Elever er blitt plukket tilfeldig og skal utgjøre et representativt utvalg av skoleelever, som så sammenlignes med hverandre. Testen er svært godt laget, så vi kan regne med at resultatet er
en svært god, men ikke ufeilbarlig, hypotese om hvordan det står til.
Hvorfor ikke ufeilbarlig? Det har med test-teori å gjøre. Altså hvordan tester lages. Skal man finne en sann skår, må man teste mange ganger, og så beregner man gjennomsnittet. Det er derfor mange elever måles. Måler man mange nok, kan man regne med at de man har målt, i gjennomsnitt skårer det alle hadde målt. Da har man statistisk signifikans: Man kan generalisere fra utvalget til alle.
Det er dog en liten, men ikke usannsynlig, risiko for at det man har målt ikke er riktig. At man har bommet. At det er et eller annet med utvalget som gjør at resultatet blir skjevt. Vi vet ikke hva, det får vi bare vite dersom vi undersøker, og ofte kan vi ikke vite. Kan det ha skjedd her?
Betrakt kurven, det er målt i 2000, 2003, 2006 og 2009. Norges gjennomsnittlige skår så langt er 498.
Hvor langt er dette fra 500?
Vel, et standardavvik på PISA er 100. Det betyr at en gjennomsnittlig skår er mellom 400 og 600. Ca. 68% havner mellom 400 og 600. Ca 38.2% havner mellom 450 og 550. Skårer man 480, er man bedre enn 42% av de som har tatt testen, og skårer man 500, er man bedre enn 50% av de som har tatt testen.
Er 6% veldig mye i denne sammenhengen?
Høres ikke 6% ganske mye mindre ut enn 500 – 480 = 20?
Men vi skårte ikke, i snitt, så dårlig som 480 i bunnåret 2006 heller. Snittet var 493. Så vi var bedre enn ca. 46% av alle i 2006, og ellers har vi stort sett vært bedre enn ca. 49% av alle. Slingringen er på ca. 3%.
Så er forskjellene mellom årene reelle, eller skyldes de «statitisikk», for å si det litt enkelt?
Mest sannsynlig er den sanne skåren vår temmelig nær 495, og det er ingen reell forskjell mellom hvert år.