/normalfordeling
Før du bruker statistiske tester er det viktig å sjekke om dataene dine er normalfordelte da mange tester antar at data følger en normalfordeling
Mange statistiske metoder som korrelasjon, regresjon, t-tester og variansanalyse forutsetter at dataene følger en normalfordeling. Når vi har 100 eller flere observasjoner i et utvalg, er ikke brudd på antakelsen om normalfordeling et stort problem (Altman & Bland, 1995). Likevel bør vi alltid sjekke om antakelsen om normalfordeling holder uansett størrelsen på utvalget. Hvis kontinuerlige data følger en normalfordeling, presenterer vi ofte disse dataene med en gjennomsnittsverdi. Denne gjennomsnittsverdien brukes deretter til å sammenligne verdier mellom grupper for å beregne signifikansnivået (p-verdien). Hvis dataene våre ikke er normalfordelt, vil ikke gjennomsnittet være en representativ verdi for datasettet. Å velge feil representasjonsverdi for et datasett og deretter beregne signifikansnivået med denne verdien kan gi feil tolkning. Derfor tester vi først normaliteten til dataene og bestemmer deretter om gjennomsnittet er en passende representasjonsverdi for dataene eller ikke. Hvis det er passende, sammenlignes gjennomsnittene med parametriske tester; hvis ikke analyseres dataene med ikke-parametriske metoder (Mishra et al., 2019).
Figur 1: Normalfordeling vist i histogram
Det finnes to hovedmåter å undersøke normalfordelingen i et datasett på; statistiske tester og visuelle metoder
Statistiske tester gir et objektivt svar på om dataene dine er normalfordelte. Likevel kan de noen ganger gi feil svar hvis du har veldig få eller veldig mange datapunkter. Vanlige tester inkluderer Shapiro-Wilk-testen for små datasett (under 50 deltakere eller observasjoner) og Kolmogorov-Smirnov-testen for større datasett (50 eller mer).
Visuelle metoder som å se på grafene, ofte histogrammer eller Q-Q-plots, lar deg bruke din egen dømmekraft for å avgjøre normalfordeling. Dette krever noe erfaring og kjennskap til datasettet for å unngå feiltolkninger. Selv om det er viktig å sjekke for normalfordeling, er det verdt å merke seg at dette ikke alltid er nødvendig for alle typer analyser, og noen ganger kan din egen vurdering være nødvendig.
Hva betyr resultatene?
Hovedutfallet av en statistisk normalfordelingstest er en p-verdi. Dine data anses som normalfordelte dersom p-verdien er høyere enn 0.05. Dataene kan altså sies å ikke være signifikant u-normalfordelte. Histogram gir en visuell representasjon av dataenes fordeling. En klokkeformet kurve antyder normalfordeling, mens skjevheter mot en av sidene vil indikere ikke-normalfordelte data. Et eksempel på et normalfordelt datasett finner du i Figur 1 (Bhandari, 2023). Q-Q-Plot sammenligner dine data mot en perfekt normalfordeling. En rett linje indikerer normalfordelte data, som vist i Figur 2 (Mishra et al., 2019). Husk at ingen metode er perfekt og en kombinasjonen av flere tilnærmingene kan ofte gi den beste vurderingen av dine data.
Figur 2: Q-Q-plot. Jo nærmere datapunktene ligger den rette linjen, desto nærmere normalfordeling er datasettet.
Gjennomføring av tester for normalfordeling
Tester av normalfordeling bør gjennomføres i statistikkprogram som SPSS. Dersom du ikke har dette tilgjengelig, kan du benytte verktøyet under for å kjøre en forenklet Kolmogorov-Smirnov test. Verktøyet gir deg en nøyaktig D-verdi, men utregningen av p-verdien krever tilgang til komplekse bibliotek som denne nettsiden ikke har mulighet til. Verktøyet under inkluderer en enkel estimering av p-verdien basert på en forhåndskalkulert kritisk verdi. Denne versjonen bruker en tilnærmet formel hvor "n" er utvalgsstørrelsen, D er den beregnede D-statistikken, og "e" er grunntallet i den naturlige logaritmen, omtrent lik 2.71828. En p-verdi lavere enn 0.05 betyr at datasettet er "signifikant ikke normalfordelt", mens en p-verdi høyere enn 0.05 betyr at datasettet er normalfordelt og vi kan bruke parametriske tester.
p ≈ 1−e ⁻²ⁿᴰ²
Kalkulatoren til høyre gir deg muligheten til å analysere datasett for statistisk skjevhet, en måling som indikerer hvor asymmetrisk dataene er distribuert rundt gjennomsnittet. Skjevhet (skewness på engelsk) er et viktig konsept i statistisk analyse, spesielt når det gjelder å forstå formen på datadistribusjonen du arbeider med. En positiv skjevhet indikerer en distribusjon med en lang hale mot høyre (flest lave verdier), mens en negativ skjevhet viser til en lang hale mot venstre (flest høye verdier). I den forenklede formelen under er S den observerte verdien av skjevheten i datasettet. E(S) er den forventede verdien av skjevheten, som for en normalfordeling er 0, og SE(S) er standardfeilen av skjevheten. Skjevhet mindre enn -1 eller større enn 1 kan tilsi skjeve data, mens resultater nærmere null forteller oss at datasettet er noenlunde symmetrisk fordelt.
Z= S-E(S) / SE(S)
Histogramgenerator
Dette verktøyet lar deg laste opp dine data og generere et histogram som viser hvordan dataene er distribuert. Et histogram er en effektiv grafisk representasjon for å vurdere om et datasett er omtrentlig normalfordelt. I et histogram representeres dataene ved å gruppere tall i søyler eller intervaller. Hvis datasettet er normalfordelt, vil histogrammet vise en bjelleformet kurve og være symmetrisk rundt gjennomsnittet, med de fleste dataene sentrert midt i.
Større datasett gir ofte en klarere visualisering av distribusjonen. Små datasett kan noen ganger gi misvisende histogrammer på grunn av tilfeldigheter i datavalg. Antall søyler i histogrammet kan påvirke hvordan distribusjonen ser ut. For få søyler kan gjøre det vanskelig å identifisere den sanne formen på distribusjonen, mens for mange kan føre til overfitting der tilfeldige variasjoner i dataene blir for fremtredende. Det er ofte lurt å bruke en statistisk test sammen med den visuelle vurderingen av normalfordelingen for høyest mulig nøyaktighet.
Hvordan gjennomføre tester for normalfordeling i SPSS
For denne illustrasjonen vil vi anta at vi allerede har et ferdig ryddet datasett og har åpnet dette i SPSS. For dette eksempelet vil vi bruke Ark 1 i øvingsdatasettet som inneholder informasjon om menn og kvinner sin høyde, alder, skostørrelse og løpeerfaring. Dersom vi ønsker å undersøke sammenhenger eller forskjeller i datasettet, må vi først vite hvilken type tester vi trenger. Dersom datamaterialet er normalfordelt trenger vi parametriske tester, mens hvis dataene ikke er normalfordelt, må vi bruke ikke-parametriske tester.
Før vi gjennomfører testen for normalfordeling er det greit å gjøre oss bedre kjent med datasettet og identifisere ulike datatyper. Vi kan se at de fleste kolonnene våre er kontinuerlige data (scale i SPSS), mens løpeerfaring kan klassifiseres som ordinale data da de har en rekkefølge, men det er ikke tydelige intervaller mellom nivåene eller en definert null. Kjønn vil være nominale data fordi de bare kan brukes som kategorisering mens det ikke er mulig å rangere disse. Under "Variable view" kan vi forsikre oss om at SPSS har definert disse riktig, eller endre de dersom de står registrert en annen datatype. Siden løpeerfaring er ordinal og kjønn er nominal, vet vi allerede at disse dataene krever ikke-parametriske tester, mens de resterende kolonnene må fortsatt sjekkes for normalfordeling.
Vi starter undersøkelsen ved å trykke på "Analyze > Descriptive statistics > Explore". Vi får da opp et vindu hvor vi har muligheten til å flytte de dataene vi vil undersøke inn i boksen til høyre. Her kan vi flytte bort høyde, alder og skostørrelse. Deretter trykker vi på "Plots" oppe til høyre og krysser av for "Histogram" og "Normality plots with tests". Når dette er gjort kan vi trykke på "Continue" for å lukke vinduet og "OK" for å kjøre testen.
Etter at SPSS er ferdig å arbeide får vi opp en output med mye informasjon. Først en oversikt over hvor mange observasjoner (antall og % av datasettet) som ble analysert, deretter en tabell med "Descriptives" hvor vi kan finne informasjon om gjennomsnitt, standardavvik og lignende. I dette tilfellet kan vi scrolle forbi disse og gå rett til "Tests of Normality" hvor vi vil finne en tabell som ser slik ut:
Her kan vi se at SPSS har gjennomført to normalitetstester; Kolmogorov-Smirnov og Shapiro-Wilk. Som nevnt tidligere er Shapiro-Wilk anbefalt for utvalg under 50, mens Kolmogorov-Smirnov fungerer bedre til større utvalg. Siden vi har nøyaktig 50 observasjoner kan vi ikke bruke dette til å ta valget for oss. Som vi ser i resultatene vil utfallet bli det samme uavhengig av hvilken vi tester, men det finnes argumenter for at Shapiro-Wilk er en sterkere test (Ghasemi & Zahediasl, 2012), så vi kan velge å bruke disse resultatene.
Den viktigste informasjonen for oss å hente ut er kolonnen under "Sig." som gir oss en p-verdi. Siden vi har testet om data er ikke-normalfordelt, vil en signifikant p-verdi (under 0.05) fortelle oss at dataene ikke er normalfordelte, mens en p-verdi over 0.05 indikerer normalfordelte data.
Vi ser da at høyde (p = 0.213) og skostørrelse (p = 0.308) er normalfordelte, mens alder ikke er det (p = 0.002). Dette betyr at vi kan bruke parametriske tester for høyde og skostørrelse, mens alder må analyseres med ikke-parametriske tester. Vi kan oppgi denne informasjonen i teksten vår under "Statistiske analyser" som ofte presenteres som siste avsnitt i metodekapittelet. Dette kan gjøres på følgende måte:
"En Shapiro-Wilk test viste at høyde (p = 0.213) og skostørrelse (p = 0.308), men ikke alder (p = 0.002), var normalfordelte"
Referanser:
Altman, D. G., & Bland, J. M. (1995). Statistics notes: the normal distribution. BMJ, 310(6975), 298.
Bhandari, P. (2023). Example of normal distribution. Scribbr. https://www.scribbr.co.uk/stats/the-normal-distribution/
Ghasemi, A., & Zahediasl, S. (2012). Normality tests for statistical analysis: a guide for non-statisticians. Int J Endocrinol Metab, 10(2), 486–489.
Mishra, P., Pandey, C. M., Singh, U., Gupta, A., Sahu, C., Keshri, A. (2019). Descriptive statistics and normality tests for statistical data. Ann Card Anaesth, 22(1), 67–72.