Korrelasjon og regresjon

Korrelasjon er et statistisk mål som beskriver retningen og styrken på forholdet mellom to variabler

Korrelasjonsanalyse er et viktig verktøy for statistiske undersøkeler og hypotesetesting i mange fagfelt, fra økonomi og medisin til samfunnsvitenskap. Det hjelper forskere å identifisere nye trender, forstå variablers innbyrdes forhold, og legge grunnlaget for videre analyser, som for eksempel regresjonsanalyser. Når man utfører korrelasjonsanalyser er det viktig å være oppmerksom på dataenes natur, potensielle skjevheter, og begrensningene ved korrelasjonskoeffisienter. En grundig forståelse av disse konseptene sikrer at analyseresultatene er pålitelige og nyttige for videre forskning.

Når vi tester for korrelasjon, undersøker vi hvordan en variabel beveger seg i forhold til en annen - om de beveger seg sammen i samme retning, motsatt retning, eller om det ikke er noe tydelig mønster i det hele tatt (Schober et al., 2018). Hvis en økning i den ene variabelen systematisk sammenfaller med en økning i den andre, sier vi at det er en positiv korrelasjon. På samme måte, hvis en økning i den ene variabelen skjer samtidig som en nedgang i den andre, er korrelasjonen negativ. Når man arbeider med korrelasjon, er det viktig å være bevisst over at dette ikke måler sammenheng og ikke er det samme som kausalitet. To variabler kan korrelere på grunn av tilfeldigheter, en tredje underliggende variabel (konfunderende faktor), eller en direkte årsakssammenheng. For å identifisere årsakssammenhenger (kausale forhold) trenger man eksperimentelle design og analyser som direkte viser at én variabel påvirker en eventuell endring i en annen. Lenger nede på siden finner du en guide til å gjennomføre korrelasjonsanalyser i SPSS.

Det finnes flere typer korrelasjonsanalyser og valget avhenger ofte av datatypen og fordelingen

Pearsons r er den mest kjente metoden og brukes for å måle styrken og retningen av den lineære forholdet mellom to kontinuerlige variabler. Pearsons korrelasjonskoeffisient, r, varierer mellom -1 og 1, der -1 indikerer en perfekt negativ lineær korrelasjon, 0 ingen korrelasjon, og 1 en perfekt positiv lineær korrelasjon.

Spearmans rho er en ikke-parametrisk test som brukes når minst en av variablene er nominal eller ordinal, eller når forutsetningene for Pearsons korrelasjon ikke er oppfylt (normalfordeling). Denne metoden vurderer hvor godt forholdet mellom to variabler kan beskrives ved en monoton funksjon.

Kendalls tau er også en ikke-parametrisk metode for å måle styrken og retningen av sammenhengen mellom to variabler. Denne korrelasjonsanalysen kan være nyttig når man har et lite datasett med få observasjoner og ikke-normalfordelte data.

Du kan lese mer om normalfordeling på denne siden.

/calc/korrelasjon

Utregning av korrelasjon

Selve formelen for å regne ut korrelasjon er kompleks. Dette gjør at vi trenger regneark eller statistikkprogram for å gjøre denne analysen for oss. I regneark som ExCel kan vi relativt enkelt regne ut korrelasjonen mellom to kolonner ved å bruke formelen "=korrelasjon, kolonne X, kolonne Y", men det er mer utfordrende å finne p-verdien (signifikansnivået) for sammenhengen. I verktøyet over kan du lime inn data fra ExCel og få regnet ut korrelasjonens styrke og retning, sammen med en tolkning av styrken på sammenhengen. Merk at dette er en generell tolkning av styrken og at individuelle fagfelt gjerne benytter spesifikke klassifiseringer. Du kan lese mer om dette her. Som i ExCel, er det også her vanskelig å få verktøyet til å gi oss en p-verdi. For dette vil vi bruke SPSS som du kan lese mer om under. For en visuell fremstilling av korrelasjonen kan du lime inn de samme verdiene i scatter-plot verktøyet.

Korrelasjon i SPSS

Her skal vi gå gjennom to typer korrelasjonsanalyser: en parametrisk (Pearson's r) og en ikke-parametrisk (Spearman's rho). Parametrisk test betyr at Pearson's korrelasjonsanalyse benyttes når datamaterialet er normalfordelt, mens Spearman's metode fungerer til data som ikke oppfyller kravet om normalfordeling, eller dersom man håndterer ordinale data. Nominale data, som ofte brukes til grupperinger i for eksempel kjønn eller geografi, kan ikke analyseres med korrelasjonsanalyser. SPSS vil ofte klassifisere datamaterialet for deg, men husk å undersøke at alt stemmer under "Variable view" nederst til venstre i vinduet.

For oppsett i datasettet trenger vi minst to variabler som er plassert i individuelle kolonner. I dette eksempelet skal vi bruke Ark 1 i øvingsdatasettet og undersøke om det er en korrelasjon mellom høyde og skostørrelse blant utvalget vårt, og om det er en sammenheng mellom alder og løpeerfaring.

For å åpne datasettet kan man gå via "File > Open > Data", eventuelt trykke på "Ctrl + O". Husk at dersom du skal åpne en ExCel-fil må du velge denne filtypen under "Files of type:". I vinduet som åpner seg kan du la alt stå som det er, men sjekk at "Worksheet" er stilt inn på riktig ark i ExCel-filen. I dette tilfellet skal vi bruke Ark 1, så hvis du bruker øvingsdatasettet kan du trykke "Ok".

Etter at datasettet er åpnet, lønner det seg ofte å ta et stopp innom "Variable view". Her kan du forsikre deg om at alle datatypene er stilt inn riktig under "Measures" og justere andre ting som antall desimaler og lignende. Før man går videre er det alltid lurt å rydde i datasettet, ta en titt på scatter plot og gjøre beskrivende analyser for å sjekke at alt stemmer og å gjøre oss best mulig kjent med datasettet. Dette kan du lese mer om på de aktuelle sidene. Vi har også undersøkt normalfordelingen og funnet ut at høyde og skostørrelse krever parametriske analyser, mens vi vet at løpeerfaring er ordinale data.

Det neste steget er å begynne på analysene. Vi starter med å undersøke sammenhengen mellom høyde og skostørrelse blant hele utvalget. Som med de fleste analyser starter man med å trykke på "Analyze" på toppen av vinduet. Deretter finner man "Correlate" og trykker på "Bivariate". I vinduet som kommer opp får vi noen alternativer og må gjøre noen valg. Først må vi velge hvilke variabler vi vil undersøke, så vi krysser av for høyde og skostørrelse og flytter disse bort i ruten til høyre ved å klikke på den blå pilen. I dette tilfellet analyserer vi normalfordelte data, så vi velger Pearson's r nederst i vinduet og trykker på "OK" for å kjøre analysen.

Resultatene vises som et rutenett hvor alle variablene er plasser på x- og y-aksen. Siden vi bare analyserte 2 variabler, får vi 4 ruter (2x2). Man kan undersøke så mange variabler man vil samtidig, men korrelasjonsanalysen vil aldri kunne gi oss resultater om mer enn to variabler sin sammenheng om gangen. I rutenettet vil man få opp hver korrelasjon to ganger, mens en diagonal fra øverst til venstre og ned mot høyre vil alltid vise oss en perfekt korrelasjon (1). Dette er fordi det er her hver variabel krysser seg selv. I vårt rutenett kan vi hente ut resultatene enten fra nede til venstre eller oppe til høyre. På linjen som heter "Pearson Correlation" får vi svar på korrelasjonens styrke og retning. Negative tall indikerer en negativ sammenheng (økning i én variabel henger sammen med reduksjon i den andre), mens positive tall indikerer en positiv sammenheng (økning eller reduksjon i én variabel korrelerer med den samme endringen i den andre). Den andre linjen (Sig. (2-tailed)) indikerer signifikansen til sammenhengen ved en p-verdi. Det er viktig å huske på at vi ser etter signifikante korrelasjoner først, og deretter styrken og retningen på disse.

I vårt tilfelle er korrelasjonen 0.937, mens p-verdien er 0.000. Dette er informasjonen vi trenger å oppgi i resultatkapittelet vårt, men før vi gjør dette bør vi undersøke hvordan vi best kan beskrive styrken og retningen på korrelasjonen. Siden verdien er et positivt tall, kan vi oppgi sammenhengen som en positiv korrelasjon. Når det kommer til styrke, benytter det gjerne ulike definisjoner i forskjellige fagfelt. En mye brukt tilnærming er å anse r-verdier under 0.30 som svak korrelasjon, 0.30 - 0.49 som moderat korrelasjon, og over 0.50 som sterk korrelasjon. For en med nyansert beskrivelse kan man også bruke under 0.20 som veldig svak, 0.20 - 0.39 som svak, 0.41 - 0.59 som moderat, 0.60 - 0.80 som sterk, og over 0.80 som veldig sterk. 1 og -1 vil alltid betegnes som henholdsvis perfekt korrelasjon og perfekt negativ korrelasjon. Når det kommer til p-verdi oppgir vi som regel det nøyaktige tallet vi får av analysen med to eller tre desimaler. Hvis vi får p = 0.000 vet vi at, med et tilstrekkelig antall desimaler, vil ikke tallet være nøyaktig 0. Derfor oppgir vi p-verdien i dette tilfellet som mindre enn 0.001 "< 0.001".

Vårt resultat på 0.937 vil kunne betegnes som en sterk eller veldig sterk korrelasjon. I teksten vår kan vi oppgi dette på følgende måte:

"Det var en veldig sterk korrelasjon mellom høyde og skostørrelse (r = 0.937, p < 0.001)."

For å gjøre en lignende analyse for menn og kvinner separat kan man enkelt dele datasettet på kjønn ved å trykke på "Data > Split file" og krysse av for "Organize output by groups". Deretter velger man kjønn som gruppering, flytter denne inn i boksen til høyre og trykker på "OK". Når man kjører korrelasjonsanalysen på nytt vil man få to outputs - en for menn og en for kvinner. Du kan lese mer om deling av datasett under intro til SPSS.

Til slutt vil vi gå gjennom en korrelasjonsanalyse med en ikke-parametriske test. Her skal vi undersøke sammenhengen mellom alder og løpeerfaring oppgitt i 3 nivåer (ny, erfaren og ekspert). Siden løpeerfaring er ordinale data må vi bruke ikke-parametriske tester. I tillegg er alder ikke normalfordelt og gir oss nok et argument for å bruke ikke-parametriske tester.

I dette eksempelet skal vi kjøre en Spearman's rho korrelasjonsanalyse. For å gjennomføre analysen starter vi på samme måte som for Pearson's r ved å trykke på "Analyze > Correlate > Bivariate". I vinduet som dukker opp flytter vi denne gangen alder og løpeerfaring inn i boksen til høyre og krysser av for "Spearman" på bunnen av vinduet før vi trykker på "OK".

Denne gangen får vi opp resultater som ser slik ut. Akkurat som for Pearson's r , henter vi her ut korrelasjonskoeffisienten og signifikansnivået. I dette eksempelet fikk vi en positiv korrelasjon på 0.070 og en p-verdi på 0.630 - altså en veldig svak og ikke-signifikant korrelasjon. Når korrelasjonen ikke er signifikant trenger vi som regel ikke å oppgi styrken i teksten. Spearman's rho korrelasjon oppgir vi så på denne måten:

"Det var ingen signifikant korrelasjon mellom alder og løpeerfaring (rs = 0.070, p = 0.630)."

Referanser:

Akoglu H. (2018). User's guide to correlation coefficients. Turkish Journal of Emergency Medicine, 18(3), 91–93. https://doi.org/10.1016/j.tjem.2018.08.001

Schober, P., Boer, C., Schwarte, Lothar, A. (2018). Correlation Coefficients: Appropriate Use and Interpretation. Anesthesia & Analgesia 126(5), 1763-1768. https://doi.org/10.1213/ANE.0000000000002864

/calc/lineær-regresjon

Lineær regresjon er en annen tilnærming, i tillegg til korrelasjon, som brukes for å se på forholdet mellom to variabler. I tillegg til å få informasjon om forholdet, kan regresjon hjelpe oss å forutsi Y-variabelen basert på X-variabelen

Lineær regresjon er en statistisk metode som brukes for å undersøke forholdet mellom to kontinuerlige variabler for å finne en lineær sammenheng mellom en uavhengig variabel (X) og en avhengig variabel (Y). Denne sammenhengen representeres ved hjelp av en regresjonsligning, som brukes til å forutsi verdien av den avhengige variabelen basert på verdien av den uavhengige variabelen. Lineær regresjon brukes i mange forskjellige felt, inkludert økonomi, biologi, ingeniørfag, og sosialvitenskap, for å forstå og forutsi naturfenomener, økonomiske trender, og sosiale prosesser. Den tillater forskere og analytikere å etablere en modell for forholdet mellom to variabler, og dermed gjøre informerte forutsigelser eller beslutninger basert på tilgjengelig data. Under finner du et verktøy som kan hjelpe deg med å beregne lineær regresjon, mens lenger nede kan du lese om hvordan lineær regresjon kan gjennomføres i SPSS.

I verktøyet til høyre kan du lime inn egne data fra to kolonner for å gjøre en regresjonsberegning. Kalkulatoren vil så gi deg en regresjonsligning, en regresjonskoeffisient og et skjæringspunkt, samt gjennomsnittene for de to kolonnene med data.

Regresjonsligning: Dette er formelen som beskriver den beste tilpasningen av linjen gjennom datapunktene i et scatter-plot. Den generelle formen på en regresjonsligning i enkel lineær regresjon er y = mx + b, hvor y er den avhengige variabelen, x er den uavhengige variabelen, m er regresjonskoeffisienten (slope), og b er skjæringspunktet (intercept).

Regresjonskoeffisient (slope): Denne verdien indikerer stigningstallet til regresjonslinjen. Den representerer endringen i den avhengige variabelen (Y) for hver enhetsendring i den uavhengige variabelen (X). En positiv regresjonskoeffisient indikerer at det er en positiv sammenheng mellom variablene, mens en negativ koeffisient indikerer en negativ sammenheng.

Skjæringspunkt (intercept): Dette er punktet der regresjonslinjen krysser Y-aksen, det vil si verdien av Y når X er 0. Intercept gir en indikasjon på den forventede verdien av Y når alle X-verdier er 0.

Lineær regresjon i SPSS