Om gyldighet og ugyldighet i personlighetstesting

Per­son­lig­hets­tes­ter blir brukt i sta­dig fle­re sam­men­hen­ger. Reak­sjo­ne­ne på bruk av sli­ke tes­ter ser ut til å ha en tendens til å variere mel­lom blank avvis­ning og ukri­tisk god­ta­gel­se. Det er natur­lig­vis for­nuf­tig å være like skep­tisk til per­son­lig­hets­tes­ting som alt annet. I den­ne artik­ke­len kom­mer jeg ikke desto mind­re kom­mer til å argu­men­te­re for at det fak­tisk fin­nes gode per­son­lig­hets­tes­ter, og at det fin­nes anven­del­ses­må­ter av dis­se som kan kom­me både den som tar tes­te­ne og de som gir tes­te­ne til gode. Skep­ti­ke­ren er kan­skje mer inter­es­sert i føl­gen­de pro­blem­stil­lin­ger, som jeg kom­mer til å bely­se i det føl­gen­de:

  • Hvor­dan kan man skjel­ne mel­lom gode og dår­li­ge per­son­lig­hets­tes­ter?
  • Fin­nes det hold­ba­re, grunn­leg­gen­de teori­er om per­son­lig­hets­mål?

Bakgrunn: Er det personen eller situasjonen som bestemmer en handling?

Psy­ko­lo­gen som viten­skap har len­ge befat­tet seg med måling av men­nes­ke­li­ge egen­ska­per. Den­ne gre­nen av psy­ko­lo­gi­en, som befat­ter seg med mål­ba­re for­skjel­ler mel­lom men­nes­ker kal­les dif­fe­ren­sial­psy­ko­lo­gi når den drei­er seg om teori­er, og psy­ko­me­tri når den drei­er seg om meto­der. Fra ca. århundre­skif­tet og fram til ca. 2. ver­dens­krig var det fak­tisk nes­ten ute­luk­ken­de måling og eva­lu­e­ring av men­nes­ker som ame­ri­kans­ke psy­ko­lo­ger drev med – tera­pi var stort sett over­latt til psy­kia­tre­ne.

Det ikke slik at for­må­let med den forsk­nin­gen som fore­gikk var å lage per­son­lig­hets­tes­ter. For­må­let var å lage teori­er om per­son­lig­het, og per­son­lig­hets­tes­ter ble utvik­let for å tes­te dis­se teori­ene. Det var det­te som vis­te seg å være så vans­ke­lig. Til tross for at f.eks. ast­ro­lo­ge­ne hev­der å kun­ne dele opp men­nes­ke­he­ten i 12 stjerne­tegn med bestem­te karak­ter­trekk, lyk­tes det ikke psy­ko­lo­ge­ne å fin­ne mål på per­son­lig­het som kun­ne fan­ges i tes­ter. Kor­re­la­sjo­ner mel­lom test­sco­re og test­kri­te­ri­er var sjel­den over 0.3, noe som er alt­for lite til å kon­klu­de­re med at det fin­nes noen kjerne­per­son­lig­het som er kon­stant fra situa­sjon til situa­sjon.

Poen­get med å måle per­son­lig­het er å kun­ne for­ut­si noe om hvor­dan men­nes­ker vil rea­ge­re under git­te for­ut­set­nin­ger, dvs. å kun­ne spå om fram­ti­da. Det­te har vist seg uhy­re vans­ke­lig. Fak­tisk var det gjengs opp­fat­ning blant psy­ko­lo­ger fram til begyn­nel­sen av 80-tal­let at men­nes­ke­lig adferd var så kom­pleks at den ikke lot seg måle. Årsa­ken ble antatt å være at det ikke fin­nes noen kjerne­per­son­lig­het – det var situa­sjo­nen, ikke indi­vi­det, som avgjor­de hvor­dan indi­vi­det skul­le rea­ge­re. «Per­son­lig­het» er en illu­sjon som skyl­des men­nes­kers trang til å «se» fle­re sam­men­hen­ger og mer kon­sis­tens enn det fak­tisk fin­nes i ver­den. Siden det er situa­sjo­nen, ikke per­sonen, som avgjør hvor­dan vi hand­ler, er det ikke mulig å lage per­son­lig­hets­tes­ter.

Men kjen­ner vi ikke igjen men­nes­ker fra situa­sjon til situa­sjon? «Ole er seg selv lik,» sier vi, og med det mener vi at vi synes Ole har en dis­tinkt opp­før­sel som skil­ler ham fra and­re men­nes­ker og som gjør ham til Ole. «Nei,» sa psy­ko­lo­ge­ne – «du synes du kjen­ner igjen Ole for­di du bare kjen­ner ham i et bestemt mil­jø – arbeid, for­ening, eller and­re akti­vi­te­ter. Had­de du truf­fet ham i fle­re sam­men­hen­ger had­de du sett at han vil­le være en for­skjel­lig per­son i hver sam­men­heng du kjen­te ham i.» Det er til en viss grad sant – i for­skjel­li­ge mil­jø­er fin­nes det for­skjel­li­ge stren­ger å spil­le på. Vi er ikke full­sten­dig upå­vir­ket av mil­jø­et. Det er anta­ge­lig også rik­tig at vi «ser» mer kon­sis­tens enn hva som fak­tisk er til­fel­le, hva angår både and­re men­nes­kers opp­før­sel og and­re ting i livet.

Gjennombruddet

På begyn­nel­sen av 80-tal­let ble det blåst nytt liv i per­son­lig­hets­fors­king – og der­med også i per­son­lig­hets­tes­ting – for­di to teo­re­tis­ke gjen­nom­brudd, fra hver sin kant, vis­te at det fak­tisk er mulig å beskri­ve per­son­lig­het på en slik måte at det er mulig å kom­me med gyl­di­ge for­ut­si­gel­ser om indi­vi­ders adferd.

Statistisk aggregering

Tid­li­ge­re tiders per­son­lig­hets­fors­king had­de begått en gjen­nom­ført feil: å for­sø­ke å for­ut­si enkel­hen­del­ser. Tenk deg at vi skul­le lage en per­son­lig­hets­test som gikk ut på å måle til­bøye­lig­het til å ser­ve­re piz­za. Hvis Ola skul­le slå ut på den­ne tes­ten, skul­le Ola for­ven­tes å ser­ve­re piz­za nes­te gang han had­de gjes­ter. Men det går an å gå lei av piz­za, å mang­le noen av ingre­di­en­se­ne som skal til, eller å ha lyst til å lage noe annet. Pizza­ser­ve­rings­in­dek­sen var alt­så basert på en illu­sjon om smak: det er ikke mulig å måle til­bøye­lig­het til å ser­ve­re piz­za.

Joda, vis­te det seg – det er ikke mulig å pre­di­ke­re hvor­vidt Ola vil eller ikke vil ser­ve­re piz­za nes­te gang han har gjes­ter, men det er mulig å vise om han vil ser­ve­re piz­za ofte­re enn gjen­nom­snit­tet av nord­menn når han har gjes­ter. Det er alt­så ikke mulig å for­ut­si enkelt­ad­ferd, men det er mulig å for­ut­si adferds­mønst­re, og det er van­lig­vis det vi er inter­es­sert i. Et slag ten­nis blir ikke avgjort etter førs­te ser­ve, fot­ball­kam­pen varer leng­re enn noen få pas­nin­ger. Selv om man er best er det mulig å kom­me opp i uhel­di­ge situa­sjo­ner, det som er vik­tig i idrett­s­am­men­heng er å få vist at man kla­rer å være dyk­tig over tid. I alle and­re sam­men­hen­ger er det slik at situa­sjo­nen av og til over­sty­rer per­son­lig­he­ten – men i man­ge sam­men­hen­ger vil man se et kon­sis­tent møns­ter bare man måler man­ge nok gan­ger.

Det har vist seg at fle­re avgjø­ren­de forsk­nings­rap­por­ter som kon­klu­der­te med at men­nes­ker ikke er kon­sis­ten­te, had­de vist det mot­sat­te der­som de inn­sam­le­de data­ene had­de vært aggre­ger­te. Det er i grun­nen rart at det tok så lang tid å opp­da­ge det­te.

Leksikalsk analyse og De fem store

Til tross for mang­len­de evne til å for­ut­si adferd med noe syn­der­lig hell, ble det like­vel laget hypo­te­ser og teori­er om per­son­lig­het. Gor­don All­port og Ray­mond Cat­tell gikk en annen vei enn den rent empi­ris­ke – i ste­den for å pre­di­ke­re adferd, prøv­de All­port, og sene­re Cat­tell på bak­grunn av All­ports stu­di­er – å fin­ne om det er mulig å redu­se­re de adjek­ti­ve­ne vi bru­ker for å beskri­ve men­nes­ke­lig adferd ned i syn­ony­mer. All­port tok utgangs­punk i 18000 adjek­ti­ver som ble delt opp etter bruks­må­ter, slik at det ble mulig å se et møns­ter i hvor­dan men­nes­ker beskri­ver hver­and­re. Cat­tell ana­ly­sert de per­son­lig­hets­trekk­be­skri­ven­de adjek­ti­ve­ne for egnet­het, og end­te opp med ca. 4000 adjek­ti­ver som men­nes­ker i test­grup­per skul­le bru­ke for å beskri­ve men­nes­ker som de kjen­te. Han bruk­te fak­tor­ana­ly­se på data­ene, dvs. at han bruk­te en teo­re­tisk for­mel for å vise hvil­ke adjek­ti­ver som opp­tråd­de sam­men og der­med kun­ne sies å være mer eller mind­re syn­ony­me. Det­te skjed­de på 1930- og 40-tal­let, og krev­de enorm data­kraft etter dati­das tek­no­lo­gi.

Cat­tell fant 16 per­son­lig­hets­trekk, og men­te der­med å kun­ne si at men­nes­ker beskri­ver hver­and­re etter seks­ten for­skjel­li­ge grup­per av karak­te­ris­tik­ker – men ikke et ord om hvor dis­se karak­te­ris­tik­ke­ne kom fra eller om de var kon­sis­ten­te. På bak­grunn av det­te resul­ta­tet lan­ser­te han den etter hvert klas­sis­ke per­son­lig­hets­tes­ten Cat­tells 16PF, som fort­satt blir brukt i man­ge land, inklu­dert Nor­ge. Cat­tell var kan­skje først ute, men sei­ne­re fors­king har reist tvil om resul­ta­te­ne hans. Det viser seg i hvert fall, vil man­ge hev­de, at data­ene hans ikke ga grunn­lag for mer enn fem trekk. John Nor­man fant også fem trekk i 1961, men lot være å gå vide­re med resul­ta­te­ne for­di han ble over­be­vist om at trek­ke­ne ikke var sta­bi­le og der­for ikke kun­ne bru­kes til stort.

I 1981 ble fire fors­ke­re eni­ge om at der­som man så på den lit­te­ra­tu­ren som fan­tes, kan man redu­se­re trekk­be­skri­ven­de adjek­ti­ver til fem grup­per. I den føl­gen­de tabel­len har jeg gjen­gitt hva hver at dis­se grup­pe­ne van­lig­vis kal­les på norsk og engelsk. Det er vans­ke­lig å bli helt enig om hva dis­se grup­pe­ne fak­tisk beskri­ver, så det er ikke full­sten­dig sam­svar mel­lom de orde­ne som bru­kes på norsk og de orde­ne som bru­kes på engelsk. Enkel­te betyd­nings­ful­le fors­ke­re bru­ker and­re navn enn de jeg har brukt her.

Styr­keExtraversion/Surgency
Var­meAgre­ea­b­le­ness
Kon­trollCon­scien­tious­ness
Følelse­mes­sig Sta­bi­li­tetEmo­tio­nal Sta­bi­li­ty
Åpen­hetOpen­ness to Ideas

Ikke desto mind­re: Per­son­lig­hets­tes­ter som måler nor­mal per­son­lig­het, dvs. sli­ke som bru­kes i nærings­li­vet og i and­re sam­men­hen­ger for å måle egnet­het til arbeid eller sam­ar­beid, måler et eller fle­re av dis­se trek­ke­ne. Den kan­skje mest kjen­te per­son­lig­hets­tes­ten, MBTI, antas å måle fire av dis­se trek­ke­ne (det ute­lat­te trek­ket er følel­ses­mes­sig sta­bi­li­tet) (Cos­ta & McCrae, 1989).

De fem trek­ke­ne beskri­ver, kort for­talt:

Styr­ke
Omfat­ter sli­ke trekk som søken ut i ver­den, ener­gisk­het, tale­trengt­het, alt som har med å gjø­re seg bemer­ket. Men­nes­ker som har høyt utslag på den­ne fak­to­ren blir gjer­ne opp­fat­tet som utad­vend­te, mens de som har lavt utslag gjer­ne blir opp­fat­tet som inn­ad­vend­te, selv om det er litt mis­vi­sen­de. Men­nes­ker som sco­rer høyt på styr­ke for­sø­ker å set­te seg ambi­siø­se mål og å gjen­nom­føre dem. De tar lett sty­ring, og de har lett for å vise begeist­ring. De snak­ker først i for­sam­lin­ger og bren­ner ikke inne med idé­ene sine. Men­nes­ker som sco­rer lavt på styr­ke bru­ker gjer­ne len­ger tid på å for­be­re­de sva­re­ne sine, og kan som resul­tat av det­te av og til leve­re bed­re resul­ta­ter enn de som sco­rer høyt. De tar sty­ring først og fremst når de føler at de har noe å bidra med, og de viser sjel­den begeist­ring uten grunn.
Var­me
Omfat­ter sli­ke trekk som sosi­al omsorg og empa­ti, men også til­bøye­lig­het til å være god­tro­en­de. Var­me men­nes­ker har let­te­re enn and­re for å la seg dis­tra­he­re av at det er and­re men­nes­ker til ste­de. Men­nes­ker som sco­rer høyt på var­me er gode å ha i alle sam­men­hen­ger hvor det er vik­tig å ta vare på men­nes­ker og men­nes­ke­li­ge rela­sjo­ner – de kan bl.a. fun­ge­re som kata­ly­sa­te­rer for fast­lås­te dis­ku­sjo­ner i arbeids­sam­men­heng. Men­nes­ker som sco­rer lavt på var­me har let­te­re for å ta og gjen­nom­føre upo­pu­læ­re avgjø­rel­ser og er ofte sta, på godt og vondt. Men­nes­ker som sco­rer høyt på var­me har stør­re til­bøye­lig­het enn and­re til å over­dri­ve effek­ten av behand­ling.

Emo­sjo­nell intel­li­gens som vi har hørt så mye om i det sis­te er anta­ge­lig en kom­bi­na­sjon av styr­ke og var­me. Lea­ry (1957) samt Mox­nes og Eng­vik (1973/1974) vis­te at men­nes­ker som sco­rer høyt på beg­ge deler har god selv­inn­sikt og blir sett på som sym­pa­tis­ke.

Kon­troll omfat­ter sli­ke trekk som ryd­dig­het og påli­te­lig­het. Men­nes­ker som sco­rer høyt på den­ne fak­to­ren er sli­ke som blir fer­di­ge med ting. Sam­men med IQ er det­te den fak­to­ren som best pre­di­ke­rer kva­li­tet i arbeids­ut­fø­rel­se. Men­nes­ker som sco­rer høyt på kon­troll kan ha en tendens til kon­for­mi­tet, men de får ting gjort. Men­nes­ker som sco­rer lavt på kon­troll er ofte uor­to­dok­se og krea­ti­ve.

Følel­ses­mes­sig sta­bi­li­tet
omfat­ter sli­ke trekk som engstel­se og for­sik­tig­het. Men­nes­ker som sco­rer høyt på følel­ses­mes­sig sta­bi­li­tet har «is i magen», og kan hol­de hodet kaldt til gle­de for seg selv og til nyt­te for and­re, og tør å ta sjan­ser. Men­nes­ker som sco­rer lavt på følel­ses­mes­sig sta­bi­li­tet er engste­li­ge, ner­vø­se og for­sik­ti­ge, og er gode å ha i enhver sam­men­heng hvor man ikke får vært nøye nok.
Åpen­het for ide­er
omfat­ter sli­ke trekk som intel­lekt, åpen­het og tole­ran­se. Men­nes­ker som har høy sco­re på åpen­het for ide­er frem­står som opp­finn­som­me, kul­ti­ver­te og flek­sib­le. Det er gjer­ne de som er teo­re­ti­ker­ne i arbeids­sam­men­heng. Men­nes­ker som sco­rer lavt på åpen­het for ide­er er gjer­ne prak­tisk anlagt, og spør etter prak­tisk nyt­te. Når det opp­står kon­flik­ter i arbeids­li­vet, og dis­se har utgangs­punkt i for­skjel­ler i perosn­lig­het, er det gjer­ne den­ne fak­to­ren som skil­ler de stri­den­de par­ter. Det er anta­ge­lig også den­ne fak­to­ren det er vik­tigst at men­nes­ker i et par­for­hold sco­rer likt på.

Dis­se fem fak­to­re­ne har fått til­nav­net De fem sto­re (The Big Five) for­di de antas å omfat­te fem sto­re per­son­lig­hets­trekk-kate­go­ri­er som til­sam­men dek­ker meste­par­ten av det som trengs for å beskri­ve en per­son.

Testkvalitet – hvordan kan man skjelne en god test fra en dårlig test?

Det er alt­så slik at det fin­nes i alle fall én modell for per­son­lig­het som er empi­risk og teo­re­tisk vali­dert, og som er mulig å bru­ke som utgangs­punkt for per­son­lig­hets­tes­ter. At jeg har nevnt den her skyl­des først og fremst at det stort sett er den­ne model­len som blir brukt innen moder­ne per­son­lig­hets­fors­king, men også for å gi et enkelt eksem­pel på en modell for per­son­lig­het.

Relevans

Det fin­nes hel­ler ingen fasit­svar for per­son­lig­hets­tes­ter, annet enn at i de fles­te sam­men­hen­ger bør kon­troll være høy. Det er ikke slik at alle gode tes­ter for­hol­de seg til de fem sto­re – i enkel­te sam­men­hen­ger er det bare deler av de fem sto­re som gir inter­es­sant infor­ma­sjon om hvor­dan en arbeids­sø­ler vil pas­se til opp­ga­ven ved­kom­men­de skal gjø­re. Det er lett – i alle fall i teori­en – å lage en per­son­lig­hets­test, det er mye vans­ke­li­ge­re å lage en arbeids­pro­sess­ana­ly­se som viser hvil­ken pro­fil eller hvil­ke pro­fi­ler som er øns­ke­lig. Det fin­nes ingen fasit for hvor­dan det­te skal gjø­res, annet enn at i en arbeids­grup­pe er det en for­del om så man­ge pro­fi­ler som mulig er repre­sen­tert. For­skjel­li­ge teo­re­ti­ke­re, f.eks. Bel­bin (1992), har tan­ker om hvor­dan dis­se for­skjel­le­ne bør være.

Normering

Det er nok­så bred enig­het blant fors­ke­re om at per­son­lig­hets­tes­ter skal nor­me­res. Det vil si at man ikke (som man­ge tror) antar at det fin­nes proto­ty­pis­ke eksemp­ler på per­son­lig­he­ter, og at man kan lage tes­ter som viser dis­se. I ste­den bru­ker man en pro­sess som kal­les nor­me­ring, som kort for­talt går ut på at tes­ten blir prø­vet ut på en grup­pe vil­kår­lig valg­te men­nes­ker, og ser hvor­dan sva­re­ne for­de­ler seg hos dem. Så blir svar­for­de­lin­gen fra den­ne grup­pen nor­ma­li­sert, slik at for­de­lin­gen får en bestemt medi­an og et bestemt stan­dard­av­vik. Når noen sei­ne­re tar tes­ten viser alt­så resul­ta­tet hvor man står i for­hold til test­grup­pa.

Det­te betyr at per­son­lig­hets­tes­ter må nor­me­res på nytt når de blir over­satt til et nytt språk. Den «bil­li­ge» måten er å over­set­te tes­ten ord for ord og så nor­me­re den på nytt, men det­te er ofte ikke bra nok for­di for­skjel­ler i nyan­ser kan gi sto­re utslag selv i en sam­vit­tig­hets­fullt utført over­set­tel­se. Ide­elt sett kan man behol­de den teo­re­tis­ke model­lensom en test er basert på, men tes­ten som sådan må lages på nytt.

Validitet

Det er ikke uten vide­re gitt at en test måler det den skal måle (særig ikke etter at den er over­satt fra et annet språk). En tom­me­stokk måler leng­de opp­til etpar meter, men den er ikke god til å måle hvor gam­mel noen er – det er en kor­re­la­sjon mel­lom alder og høy­de, men den er lav og den går mot 0 når alde­ren er over ca. 16 eller høy­den er over ca. 1½ meter.

En test vali­de­res for å vise eller for­bed­re

  • intern kon­sis­tens i spørs­må­le­ne (intern vali­di­tet)
  • sam­men­hen­gen mel­lom spørs­må­le­ne og vari­ab­le­ne som skal måles (eks­tern vali­di­tet)
  • om tes­ten for­ut­si­er det den er ment å for­tu­si (kri­te­rie­va­li­di­tet)

Vali­di­tet er ikke noe enkelt begrep. Det omfat­ter for­skjel­li­ge til­nær­min­ger og meto­der som er nok­så uni­ke for den­ne type tes­ting. Det er få tall som kan gies som resul­tat av en vali­de­ring, men tall som bør opp­gis er

Chron­bachs alfa
som er et tall mel­lom 0 og 1. Det bør være over 0.8. Det viser i hvor stor grad spørs­mål som er ment å måle sam­me begrep, fak­tisk gjør det.
Pre­dik­tiv vali­di­tet
som opp­gis som et tall mel­lom 0 og 1. Det bør være over 0.8, eller i hvert fall ikke stort lave­re. Det viser hvor nøy­ak­tig tes­ten måler det den skal for­ut­si.
Kri­te­rie­va­li­di­tet
som også opp­gis som et tall mel­lom 0 og 1. Det uttryk­ker for­hol­det mel­lom hvil­ket resul­tat tes­ten gir og hva den skal måle. Kri­te­rie­va­li­di­tet kan være et tvil­somt begrep for­di det ikke all­tid er mulig å måle kri­te­ri­et nøy­ak­tig. I noen sam­men­hen­ger (men ikke alle) kan man reg­ne ut rime­lig nøy­ak­tig hvor sik­ker man kan være på at man har et godt mål på kri­te­ri­et. I and­re til­fel­ler er det ikke noen tvil. Kri­te­riet­va­li­di­tet måles van­lig­vis ved pre­dik­tiv vali­di­tet.

Per­son­lig­hets­må­ling og per­son­lig­hets­mo­del­le­ring er svært vans­ke­lig å set­te seg inn i. Hele faget hvi­ler på sta­tis­tis­ke ana­ly­ser av empi­ris­ke obser­va­sjo­ner. Selv om mate­ma­tik­ken som lig­ger bak van­lig­vis er for­holds­vis enkel kre­ver meto­de­ne ofte et uvant tanke­sett.

Litteratur

Gold­berg, Lewis R. (1992)
What the hell took so long? Donald W. Fiske and the big five factor struc­tu­re In: Per­so­na­li­ty Rese­arch, Met­hods, and Theory: A fest­schrift hono­ring Donald. W. Fiske Hills­da­le: Lawren­ce Erl­baum Associa­tes
John, Oli­ver P (1990)
The «Big Five» factor taxo­no­my: Per­so­na­li­ty dimensions in the natu­ral lan­gua­ge and in ques­tionn­ai­res. In: Lawren­ce A. Per­vin (ed), Hand­book of Per­so­na­li­ty Chap­ter 3. New York: Guil­ford
Loevin­ger, Jane (1957)
Objec­ti­ve Tests as Instru­ments of Psycho­lo­gical Theory Psycho­lo­gical reports (3) pp 635 – 694.
Skin­ner, Har­vey A. (1986)
Con­struct Vali­da­tion Approa­ch to Psychiatric Clas­si­fi­ca­tion In: The­odo­re Mil­lon and Gerald (eds.) Con­tem­po­ra­ry Direc­tions in Psycho­pat­ho­lo­gy: Toward the DSM-IV Chap­ter 15 pp 307 – 330 New York: Guild­ford
nb_NONorwegian