Når jeg lærer meg ting, skriver jeg om det. Det hjelper meg å tenke. Det gjør at jeg skriver mye feil, men det er greit: Det hjelper meg å tenke, og blir feil påpekt, retter jeg dem.
Jeg tenkte jeg skulle begynne første kapitel av statistikkskolen med det aller mest grunnleggende i statistikk: Korrelasjon. Korrelasjon handler om hvordan ting varierer, og all statistikk, nesten, handler om ting som på en eller annen måte varierer sammen. De fleste kan et eller annet om korrelasjon, og de fleste kan et eller annet om at dersom ting korrelerer, så har de kanskje, eller kanskje ikke, en sammenheng; og at det ikke er mulig å si om to ting at de er årsaker til hverandre selv om de korrelerer aldri så mye.
Jeg antar én ting her: At du ikke trenger å overbevises om at dette er lurt å kunne, men at du har behov for å forstå grunnleggende statistikk. Hvorfor det er lurt å kunne slikt som dette kommer i en seinere artikkel.
Men først og fremst: Hva mener vi med korrelasjon? Jo, hvis to ting varierer på samme måte, så korrelerer de. Det betyr at de har noe til felles. De trenger ikke ha mer til felles enn at de varierer på samme måte. Årsaken til variasjonen kan være to forskjellige ting.
I praksis er det slik at hvis vi vet hvor mye to ting korrelerer, så vet vi noe om hvor sannsynlig det er at hvis den ene tingen er der, så er den andre tingen der også. Korrelasjon oppgis som et desimaltall mellom ‑1 og 1: Korrelasjon på ‑1 betyr at hvis den ene tingen er det, så er den andre tingen ikke der. Korrelasjon på 0 betyr at det er umulig å vite. Korrelasjon på 1 betyr at begge ting alltid opptrer samtidig. Få interessante ting har korrelasjon på ‑1, 0, eller 1. Det er alltid usikkerhet.
Men hva vil det si at noe varierer? Jo, at du har noe: et fenomen, et begrep, et eller annet, som forekommer mer enn én gang og hvor forekomstene varierer i størrelse.
Høyden til mennesker varierer. Høyde er et begrep, det kan måles, og det varierer. Og det er enkelt å forestille seg fordi alle kjenner mennesker som ikke er like høye. Og det er lett å se. Så, se for deg høyden til alle i f.eks. klassen eller kontorlandskapet ditt.
De fleste er omtrent like høye. Også er det noen som er lave og noen som er høye. «Høy» og «lav» er uformelle begreper. De fleste er enige om hvem som er svært høye eller svært lave, men alle er ikke enige om hvem som er i midten. Men du skal lete lenge før du finner noen som mener at alle «egentlig» er like høye.
Så hva varierer med høyde? Jo, alder. Opp til en viss alder. Som her (tatt fra www.nettdoktor.no høyde og vekt for jenter og høyde og vekt for gutter): (I statistikk blir tabellene alltid store. Man må ha mye tall før ting blir så uoversiktlig at det er noe poeng i å regne på dem. Og av andre grunner.)
Høyde gutter | Vekt gutter | Høyde jenter | Vekt jenter | |
---|---|---|---|---|
1 | 52.00 | 3.50 | 51.00 | 3.50 |
2 | 63.00 | 6.50 | 61.00 | 5.70 |
3 | 70.00 | 8.50 | 68.00 | 7.50 |
4 | 75.00 | 9.80 | 72.00 | 9.00 |
5 | 78.00 | 11.80 | 76.00 | 10.20 |
6 | 84.00 | 12.30 | 82.00 | 11.50 |
7 | 88.00 | 13.30 | 87.00 | 12.60 |
8 | 97.00 | 15.40 | 97.00 | 15.00 |
9 | 104.00 | 17.30 | 105.00 | 17.10 |
10 | 111.00 | 19.00 | 110.00 | 19.00 |
11 | 118.00 | 21.20 | 118.00 | 20.80 |
12 | 123.00 | 23.20 | 123.00 | 23.00 |
13 | 129.00 | 26.00 | 128.00 | 25.00 |
14 | 134.00 | 28.50 | 132.00 | 27.50 |
15 | 138.00 | 31.00 | 138.00 | 30.50 |
16 | 143.00 | 33.50 | 144.00 | 35.00 |
17 | 148.00 | 37.50 | 150.00 | 39.00 |
18 | 154.00 | 42.00 | 156.00 | 43.00 |
19 | 161.00 | 48.00 | 160.00 | 50.00 |
20 | 168.00 | 54.00 | 163.00 | 52.00 |
21 | 174.00 | 60.00 | 165.00 | 53.00 |
22 | 178.00 | 63.00 | 166.00 | 54.00 |
23 | 179.00 | 64.00 | 166.00 | 54.00 |
Den nysgjerrige leser er antagelig forferdelig nysgjerrig nå: Hva er korrelasjonene? Jo, de skal ikke vente på seg lenger: Korrelasjonen mellom høyde og vekt er 0.96 for gutter og 0.97 for jenter i den tabellen vi har sett på.
Men hva er korrelasjonen mellom høyde for gutter og jenter? Jo, den er 0.995 = eller 1 hvis vi runder av. Korrelasjonen mellom vekt for gutter og jenter er 0.99.
Jenter og gutter veier ikke det samme, og er heller ikke like høye. Så hvordan kan korrelasjonene være høyere når forskjellene er større? Jo, fordi korrelasjon ikke er et mål på sammenheng, men på samvariasjon. Jo mer ting varierer på samme måte, desto mer korrelerer de.
Hvordan ser det ut hvis vi plotter dem mot hveranre? Hvordan ser nesten perfekte korrelasjoner ut? Jo, sånn:
Ingen rett strek her. Hvorfor? Tja, se på neste. Her er en morsom en. Se på følgende tabell hvor vi har målt … noe. Se på tallene:
t1 | t2 | |
---|---|---|
1 | 4 | 8 |
2 | 5 | 9 |
3 | 8 | 12 |
4 | 5 | 9 |
5 | 10 | 14 |
6 | 9 | 13 |
7 | 5 | 9 |
8 | 2 | 6 |
9 | 6 | 10 |
10 | 4 | 8 |
11 | 2 | 6 |
12 | 5 | 9 |
13 | 2 | 6 |
14 | 6 | 10 |
15 | 2 | 6 |
16 | 1 | 5 |
17 | 6 | 10 |
18 | 5 | 9 |
19 | 4 | 8 |
20 | 8 | 12 |
Ser du kjapt på tallene, ser du at de ikke er like. Men tallene i den ene kolonnen er de samme som tallene i den andre kolonnen + 4. Korrelasjonen mellom dem er 1. De er ikke de samme tallene, men de varierer på samme måte.
Finn uklarheter, uforståeligheter, og feil, og teksten vil bli rettet opp etter fattig evne.