Statistikkskolen, kapitel 2: Veldig enkel hypotesetesting

Når jeg lærer meg ting, skri­ver jeg om det. Det hjel­per meg å ten­ke. Det gjør at jeg skri­ver mye feil, men det er greit: Det hjel­per meg å ten­ke, og blir feil påpekt, ret­ter jeg dem.

Den mest van­li­ge bru­ken av sta­ti­stikk innen sam­funns­fag, er den­ne: Er to grup­per like eller ikke? Det­te sam­sva­rer med den grunn­leg­gen­de tesen i all viten­skap: Er obser­ver­te feno­me­ner lov­mes­si­ge eller til­fel­di­ge? Blir pasi­en­ter vir­ke­lig mind­re depres­si­ve av tera­pi, og kan Såsakal­len kure­re dår­li­ge ryg­ger? I beg­ge til­fel­ler er det mulig å under­sø­ke folk etter kuren, og så under­sø­ke hvor sann­syn­lig det er at de fak­tisk ble bed­re. Ble de det, er det noen under­lig­gen­de lover bak, ble de ikke det, er de obser­ver­te resul­ta­te­ne til­fel­di­ge.

Så sett at du gir to pil­ler til 100 men­nes­ker. Fem­ti av dem får en pil­le som skal kure­re depre­sjon, fem­ti av dem får en pil­le som inne­hol­der noe som ikke skal kure­re depre­sjon. Skal du kun­ne gjø­re sta­ti­stikk på det­te, må du gjø­re en god del ting mer.

  • De som gir fra seg pil­le­ne, må ikke selv vite hvil­ke pil­ler de gir til pasi­en­te­ne.
  • Pasi­en­te­ne selv må ikke vite hva slags pil­ler de tar.
  • Alle pasi­en­te­nes depre­sjo­ner må være sam­men­lign­ba­re.
  • Alle pasi­en­te­ne må være så like hver­and­re som mulig på alle muli­ge områ­der som spil­ler en rol­leog som ikke har med depre­sjo­nen å gjø­re.
  • Sva­re­ne de gir fra seg må være til­nær­met nor­mal­for­delt.

Van­lig­vis løser vi meste­par­ten av det­te ved å pluk­ke for­søks­per­soner helt til­fel­dig, i håp om at pluk­ker vi man­ge nok helt til­fel­dig, så vil de lig­ne så mye som mulig på de som skal bru­ke pil­le­ne sei­ne­re. I sei­ne­re kapit­ler går vi gjen­nom måter å sjek­ke om alle for­ut­set­nin­ge­ne vi har for­søkt å gjø­re, er gjort.

Men sett nå at vi har gjort alt rik­tig. Da spør vi kli­en­te­ne i beg­ge grup­pe­ne hvor­dan de had­de det før og etter at de fikk pil­le­ne.

PÅ en ska­la fra 1 – 7, hvord­nan har du det i dag? 1 betyr fan­tas­tisk, 7 betyr for­fer­de­lig. Så vi spør 20 pasi­en­ter, og får:

 Kon­troll­grup­peEks­pe­ri­ment­grup­pe
14.006.00
25.008.00
33.007.00
43.008.00
51.008.00
61.008.00
73.007.00
83.007.00
90.006.00
101.009.00
113.007.00
123.0010.00
136.007.00
145.009.00
157.008.00
164.007.00
176.007.00
183.009.00
192.005.00
203.008.00

OK, så hva kan vi vite – er det for­skjell på grup­pe­ne etter behand­ling? Til det­te bru­ker vi, siden vi er nybe­gyn­ne­re, Stu­dents t‑test.

Stu­dent het ikke egent­lig dét, han het Wil­liam Sea­ly Gos­set og job­bet for bryg­ge­ri­et Guin­nes. Han pub­li­ser­te i viten­ska­pe­li­ge tids­skrift, og da bruk­te han pseu­do­ny­met Stu­dent, siden Guin­nes ikke til­lot fors­ker­ne sine å pub­li­se­re, for­di de ikke vil­le at kon­kur­ren­te­ne skul­le opp­da­ge at de job­bet viten­ska­pe­lig.

Så her er den førs­te lil­le intro­duk­sjon til hypo­tese­tes­ting: Vir­ket pil­len eller ikke? Du har to hypo­te­ser i utgangs­punk­tet. Den ene heter all­tid null-hypo­te­sen (H0) og er er at den ikke vir­ket (og at for­skjel­ler mel­lom grup­pe­ne er til­fel­di­ge). Den and­re er heter H1 og er at den vir­ket (og at for­skjel­ler mel­lom grup­pe­ne er lov­mes­si­ge).

I tes­ten til Stu­dent gjør vi som føl­ger:

> # Legg hver kolonne inn i hver sin variabel
> Q1  Q2  # Slå dem sammen 
> Q  # Sett fornuftige navn på kolonnene
> colnames(Q)  # Vis dataene
> Q
      Før Etter
 [1,]   4     6
 [2,]   5     8
 [3,]   3     7
 [4,]   3     8
 [5,]   1     8
 [6,]   1     8
 [7,]   3     7
 [8,]   3     7
 [9,]   0     6
[10,]   1     9
[11,]   3     7
[12,]   3    10
[13,]   6     7
[14,]   5     9
[15,]   7     8
[16,]   4     7
[17,]   6     7
[18,]   3     9
[19,]   2     5
[20,]   3     8
> # Kjør t-test!
> t.test(Q1,Q2,var.equal=TRUE)

Two Sample t-test

data:  Q1 and Q2
t = -8.6777, df = 38, p-value = 1.507e-10
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -5.241475 -3.258525
sample estimates:
mean of x mean of y 
     3.30      7.55 

>

Alter­na­tivt kan du bru­ke SPSS eller Mini­tab, men R er gra­tis.

Hva kan vi slut­te av det­te?

p‑verdien er svært, svært liten. Er den lave­re enn 0.05 (det er bare en kon­ven­sjon vi har), kan vi anta at vi ikke har klart å sann­syn­li­gjø­re at for­skjel­le­ne er til­fel­di­ge. Neg­a­tiv t‑verdi betyr at grup­pe 2 had­de høy­est gjen­nom­snitt. I våre dager rap­por­te­rer vi sjel­den t‑verdien: p‑verdien er en funk­sjon av t‑verdien og det er den som er inter­es­sant. Når |t| (ver­di­en av t uten for­teg­net) går opp, går p ned.

Det p‑verdien sva­rer på, er føl­gen­de spørs­mål:

Hva er sann­syn­lig­he­ten for å få en t‑verdi i hvert fall så stor som den­ne der­som H_0 er sann?

Så hva er det vi har svart på oven­for? Jo, vi har spurt natu­ren: Vir­ker ikke den­ne pil­len? Og natu­ren har svart: Vi har ikke god nok grunn til å avvise at pil­len vir­ker.

nb_NONorwegian