I løpet av studietida blir alle kjent med ei eller flere statistikkpakker, og noen av oss bruker dem (eller andre) også etter studietida. Det som er felles for de pakkene som vi blir kjent med i studietida, er at de er dyre. Minitab koster ca. 10 000,-; SPSS fra ca. 35 000 og oppover – dersom man kjøper dem i online-butikkene.
Og man må gjerne kjøpe relativt dyre varianter fordi funksjonalitet som f.eks. faktoranalyse koster ekstra.
Selv om man ikke jobber med forskning, kan det være greit å kunne gjøre enkle statistiske analyser på egne undersøkelser – spørreskjemaer til klienter, f.eks. Excel har noen muligheter for deskriptiv statistikk, men mangler verktøy for regresjonsanalyse og faktoranalyse.
Om gratis programvare
Gratis høykvalitets software har eksistert siden datamaskinenes barndom. Min generelle erfaring som bruker av fri software siden ca. 1989, er at den softwaren som er utviklet av nerder (ordet nerd her brukt i ordets mest positive forstand) for nerder stort sett er av svært høy kvalitet. Det siste store statistiske arbeidet jeg gjorde, ble utført i R (gratis), redigert i GNU Emacs (gratis), og formatert med TeX (gratis). Det ble et nydelig PDF-dokument. Hvis tid er penger, er arbeidet jeg la ned i å lære meg dem ikke gratis.
Her skulle jeg sikkert skrevet noe om gratis programvare, fri programvare, og åpen kildekode – men det vil føre for langt: R er gratis å laste ned og gratis å bruke både kommersielt og i forskning. Det finnes kommersielle utvidelser av R for tungregning i store miljøer.
Om å bruke R
Installering
Før noe annet, må du installere R.
Du åpner nettleseren din i http://cran.uib.no/, hvor du vil finne linker for å laste ned R, samt instruksjoner for å installere, R til Macintosh, Linux eller Windows.
Mitt første møte med … R
Du slipper ikke unna å måtte taste inn kommandoer – sånn som vi gjorde i de gamle utgavene av SPSS, før SPSS fikk menyer og vinduer. R kommer i og for seg også med menyer og vinduer, men taste koder må du nok likevel. Det er dog ikke så sært som i SPSS. Muligens.
Hvis du er en typisk psykolog (sorry …) sitter du antagelig på en PC med Windows. Og har ingen anelse om hva CMD.EXE er. Så du vil ha et grafisk brukergrensesnitt. R kommer ferdig med et svært enkelt et.
Hvis du er i Windows 10, så kan du få opp R ved å klikke på Windows-menyen (nederst til venstre), velg «Alle Apper», bla deg fram til «R » og velg «R x64» hvis du har dét valget, eller «R i386». Er du på Mac, så velg «R » fra «Programmer»-menyen. Er du på Linux, antar jeg at du vet hva du gjør.
Du skal få opp et vindu som ser omtrent sånn ut.
Plasser markøren (muspekeren) til høyre for «>»-tegnet rett under teksten «Type ‘q()’ to quit R».
Dvs. der hvor det står «>». Så tast inn de første famlende forsøkene dine i R:
> 2+2 [1] 4
I ovenstående og følgende eksempler står det du skal taste i blått, og det R svarer i svart.
Du har nå fått R til å regne ut at 2+2=4. Det er ikke så verst, men R kan bedre. Sett at du har spurt klientene dine hvordan de føler seg etter en time hos deg, på en skala fra 1 – 7. Ti klienter svarer henholdsvis 3,6,3,4,6,4,7,5,2 og 7. Hva er gjennomsnittet?
Bare tast inn, i R : klienter <- c(3,6,3,4,6,4,7,5,2,7). Slik blir det seende ut:
> klienter <- c(3,6,3,4,6,4,7,5,2,7)
Da har du tilegnet objektet klienter ei liste med skårer. Hvis du vil ha gjennomsnittet, skriver du:
> mean(klienter) [1] 4.7
Det er jo ikke så spennende … men så taster du inn «summary(klienter)»:
> summary(klienter) Min. 1st Qu. Median Mean 3rd Qu. Max. 2.00 3.25 4.50 4.70 6.00 7.00
Vips! R forteller deg litt om median, aritmetrisk gjennomsnitt (mean), kvartiler, max. ‑og min-verdi. Men … du ønsker vel gjerne mer enn det?
R kommer ikke med allverden innebygget – du må laste inn biblioteker (pakker med funksjoner og data) for å kunne bruke R til noe særlig. En måte å få ut mer interessant statistikk, er å hente inn «psych»-biblioteket, og så be om deskriptiv statistikk. Du gir R kjennskap til det som følger:
> install.packages("psych",repos="http://cran.uib.no")
Det kommer masse meldinger, og medmindre den aller siste forteller at noe gikk galt, har du pakka inne. Dette gjør du én gang for alle. Når du først har gjort dette, kan du gjøre som følger:
> library(psych) > describe(klienter) vars n mean sd median trimmed mad min max range skew kurtosis se X1 1 10 4.7 1.77 4.5 4.75 2.22 2 7 5 -0.03 -1.65 0.56
Skjønner? Plutselig har du atskillig mer.
Du trenger ikke taste inn library(psych) hver gang du vil bruke funksjonene. Det er mange måter å unngå slikt unødvendig merarbeid på.
Å spare arbeid
R kan naturligvis lese dokumenter med R ‑kode.
I menyen File kan du velge New script. Da kommer det opp et vindu hvor du kan taste inn R ‑kode. Koden kan da kjøres i R ved å velge File og så Source R Code. Dette er en ganske enkel editor, det finnes mer avanserte verktøy for å skrive kode i R. Men da har du altså en enkel mulighet for å endre, lagre og kjøre kode uten å måtte taste inn alt på nytt hver gang.
Hvordan finne ut mer?
R er altså gratis, men det tar tid å lære seg å bruke det. Det finnes gratis (og kommersielle) brukergrensesnitt som gjør at man kan komme et stykke uten programmering.
- Using R for psychological Research R er mye brukt blant psykologer. Denne websida tar for seg R for psykologer
- Intro to R for Psychologists Denne boka tar stort sett for seg det du trenger å vite.
- The Art of R Programming: A Tour of Statistical Software Design Denne er for viderekommende. Hvis det største problemet du har med SPSS er at det er få muligheter for skreddersøm og programmering, slik at du faktisk har behov for R som programmeringomgivelse, er dette boka for deg. Ingen bok om R har gitt meg så mange aha-opplevelser som denne.
- RStudio RStudio er et grafisk brukergrensesnitt som gjør R noe mer behagelig å bruke, selv for programmerere. Dette dokumentet er skrevet i RStudio, og oversatt til Word fra R.
Veien videre
Så langt har jeg skrevet følgende om R:
- At R finnes
- Hvordan du installerer R
- Hvordan du starter R
- Hvordan du får gjort noen nokså puslete småting i R
- Hvilke ressurser som finnes for å bli god
I neste artikkel om R tenker jeg å skrive litt om hvordan man kommer i gang med å lese inn data og bearbeide dem, samt å svare på spørsmål som skulle komme i forbindelse med denne artikkelen.