Statistikkskolen, kapitel 1: Grunnleggende statistikk

Når jeg lærer meg ting, skri­ver jeg om det. Det hjel­per meg å ten­ke. Det gjør at jeg skri­ver mye feil, men det er greit: Det hjel­per meg å ten­ke, og blir feil påpekt, ret­ter jeg dem.

Jeg tenk­te jeg skul­le begyn­ne førs­te kapi­tel av sta­ti­stikk­sko­len med det aller mest grunn­leg­gen­de i sta­ti­stikk: Kor­re­la­sjon. Kor­re­la­sjon hand­ler om hvor­dan ting varie­rer, og all sta­ti­stikk, nes­ten, hand­ler om ting som på en eller annen måte varie­rer sam­men. De fles­te kan et eller annet om kor­re­la­sjon, og de fles­te kan et eller annet om at der­som ting kor­re­le­rer, så har de kan­skje, eller kan­skje ikke, en sam­men­heng; og at det ikke er mulig å si om to ting at de er årsa­ker til hver­and­re selv om de kor­re­le­rer ald­ri så mye.

Jeg antar én ting her: At du ikke tren­ger å over­be­vi­ses om at det­te er lurt å kun­ne, men at du har behov for å for­stå grunn­leg­gen­de sta­ti­stikk. Hvor­for det er lurt å kun­ne slikt som det­te kom­mer i en sei­ne­re artik­kel. 

Men først og fremst: Hva mener vi med kor­re­la­sjon? Jo, hvis to ting varie­rer på sam­me måte, så kor­re­le­rer de. Det betyr at de har noe til fel­les. De tren­ger ikke ha mer til fel­les enn at de varie­rer på sam­me måte. Årsa­ken til varia­sjo­nen kan være to for­skjel­li­ge ting. 

I prak­sis er det slik at hvis vi vet hvor mye to ting kor­re­le­rer, så vet vi noe om hvor sann­syn­lig det er at hvis den ene tin­gen er der, så er den and­re tin­gen der også. Kor­re­la­sjon opp­gis som et desi­mal­tall mel­lom ‑1 og 1: Kor­re­la­sjon på ‑1 betyr at hvis den ene tin­gen er det, så er den and­re tin­gen ikke der. Kor­re­la­sjon på 0 betyr at det er umu­lig å vite. Kor­re­la­sjon på 1 betyr at beg­ge ting all­tid opp­trer sam­ti­dig. Få inter­es­san­te ting har kor­re­la­sjon på ‑1, 0, eller 1. Det er all­tid usik­ker­het.

Men hva vil det si at noe varie­rer? Jo, at du har noe: et feno­men, et begrep, et eller annet, som fore­kom­mer mer enn én gang og hvor fore­koms­te­ne varie­rer i stør­rel­se.

Høy­den til men­nes­ker varie­rer. Høy­de er et begrep, det kan måles, og det varie­rer. Og det er enkelt å fore­stil­le seg for­di alle kjen­ner men­nes­ker som ikke er like høye. Og det er lett å se. Så, se for deg høy­den til alle i f.eks. klas­sen eller kon­tor­land­ska­pet ditt.

De fles­te er omtrent like høye. Også er det noen som er lave og noen som er høye. «Høy» og «lav» er ufor­mel­le begre­per. De fles­te er eni­ge om hvem som er svært høye eller svært lave, men alle er ikke eni­ge om hvem som er i midt­en. Men du skal lete len­ge før du fin­ner noen som mener at alle «egent­lig» er like høye.

Så hva varie­rer med høy­de? Jo, alder. Opp til en viss alder. Som her (tatt fra www.nettdoktor.no høy­de og vekt for jen­ter  og høy­de og vekt for gut­ter): (I sta­ti­stikk blir tabel­le­ne all­tid sto­re. Man må ha mye tall før ting blir så uover­sikt­lig at det er noe poeng i å reg­ne på dem. Og av and­re grun­ner.)

 Høy­de gut­terVekt gut­terHøy­de jen­terVekt jen­ter
152.003.5051.003.50
263.006.5061.005.70
370.008.5068.007.50
475.009.8072.009.00
578.0011.8076.0010.20
684.0012.3082.0011.50
788.0013.3087.0012.60
897.0015.4097.0015.00
9104.0017.30105.0017.10
10111.0019.00110.0019.00
11118.0021.20118.0020.80
12123.0023.20123.0023.00
13129.0026.00128.0025.00
14134.0028.50132.0027.50
15138.0031.00138.0030.50
16143.0033.50144.0035.00
17148.0037.50150.0039.00
18154.0042.00156.0043.00
19161.0048.00160.0050.00
20168.0054.00163.0052.00
21174.0060.00165.0053.00
22178.0063.00166.0054.00
23179.0064.00166.0054.00

Den nys­gjer­ri­ge leser er anta­ge­lig for­fer­de­lig nys­gjer­rig nå: Hva er kor­re­la­sjo­ne­ne? Jo, de skal ikke ven­te på seg len­ger: Kor­re­la­sjo­nen mel­lom høy­de og vekt er 0.96 for gut­ter og 0.97 for jen­ter i den tabel­len vi har sett på.

Men hva er kor­re­la­sjo­nen mel­lom høy­de for gut­ter og jen­ter? Jo, den er 0.995 = eller 1 hvis vi run­der av. Kor­re­la­sjo­nen mel­lom vekt for gut­ter og jen­ter er 0.99.

Jen­ter og gut­ter vei­er ikke det sam­me, og er hel­ler ikke like høye. Så hvor­dan kan kor­re­la­sjo­ne­ne være høy­ere når for­skjel­le­ne er stør­re? Jo, for­di kor­re­la­sjon ikke er et mål på sam­men­heng, men på sam­va­ria­sjon. Jo mer ting varie­rer på sam­me måte, desto mer kor­re­le­rer de.

Hvor­dan ser det ut hvis vi plot­ter dem mot hver­an­re? Hvor­dan ser nes­ten per­fek­te kor­re­la­sjo­ner ut? Jo, sånn:

GutterJenter

Ingen rett strek her. Hvor­for? Tja, se på nes­te. Her er en mor­som en. Se på føl­gen­de tabell hvor vi har målt … noe. Se på tal­le­ne:

 t1t2
148
259
3812
459
51014
6913
759
826
9610
1048
1126
1259
1326
14610
1526
1615
17610
1859
1948
20812

Ser du kjapt på tal­le­ne, ser du at de ikke er like. Men tal­le­ne i den ene kolon­nen er de sam­me som tal­le­ne i den and­re kolon­nen + 4. Kor­re­la­sjo­nen mel­lom dem er 1. De er ikke de sam­me tal­le­ne, men de varie­rer på sam­me måte.

Finn uklar­he­ter, ufor­ståe­lig­he­ter, og feil, og teks­ten vil bli ret­tet opp etter fat­tig evne.

nb_NONorwegian