Nicolay Stien
31.10.2024
Stien, N. (2024, 31 oktober). Effektstørrelser og p-verdier i forskningsformidling. Metodeguiden. https://www.metodeguiden.com/post/effektstørrelser-og-p-verdier-i-forskningsformidling
Når forskere legger fram sine funn, er det som regel mye fokus på p-verdier for å vise om resultatene er "statistisk signifikante". Men hva forteller egentlig en p-verdi oss om betydningen av funnene? Burde vi heller lytte til statistikeren Jacob Cohens (1990) advarsel om at “the primary product of a research inquiry is one or more measures of effect size, not p-values"? Her tar vi en titt på hva effektstørrelser er og ser på hvordan de kan gi oss et klarere bilde av hvor stor eller viktig en effekt faktisk er i praksis.
Hva er en p-verdi – og hvorfor er den ikke nok?
En p-verdi uttrykker sannsynligheten for å observere et gitt resultat hvis nullhypotesen er sann – altså, hvis det ikke er noen reell forskjell mellom gruppene som studeres. Tradisjonelt har p<0.05 (altså mindre enn 5% sannsynlighet for tilfeldighet) blitt brukt som en grense for å definere statistisk signifikans, men dette nivået er i stor grad tilfeldig og har ingen «magisk» betydning (Boscardin et al., 2024). En vanlig misforståelse er at lavere p-verdier automatisk betyr større effekter eller «mer signifikante» resultater. Men mer signifikante p-verdier, som p <0.01 eller p <0.001, indikerer ikke nødvendigvis større effekter; de viser bare at resultatene er mindre sannsynlig tilfeldige. Effektstørrelsen derimot, gir oss et tydeligere bilde av den praktiske betydningen – noe som p-verdier alene ikke kan gi oss (Wasserstein, Schirm & Lazar, 2019; Sullivan & Feinn, 2012).
En studie med et svært stort utvalg kan nesten alltid finne en "statistisk signifikant" forskjell, selv om forskjellen i praksis er ubetydelig. For å illustrere begrensningene med p-verdier kan vi se på et eksempel: En studie fant at daglig bruk av Aspirin reduserte risikoen for hjerteinfarkt, men med en svært liten effektstørrelse – risikoen sank med bare 0,77 % (Bartolucci, Tendera & Howard, 2011, beskrevet i Sullivan & Feinn, 2012). Selv om resultatet var statistisk signifikant, var effekten så liten at nytten for de fleste var minimal, særlig når man tok hensyn til potensielle bivirkninger. Slik sett kan det å fokusere på p-verdier alene føre til at statistisk signifikans feilaktig blir tolket som praktisk relevans. Den amerikanske statistikkforeningen (ASA) har til og med uttalt at «det er på tide å slutte å bruke begrepet statistisk signifikant […] fordi det gir et feilaktig bilde av betydningen til dataene» (Wasserstein & Lazar, 2016).
Hva er en effektstørrelse - og hvorfor er den så viktig?
Effektstørrelsen representerer størrelsen på en observerbar effekt, altså hvor stor forskjellen er mellom grupper, hvor stor en endring er over tid, eller hvor sterk sammenhengen er mellom variabler. Dette kan uttrykkes gjennom mål som for eksempel Cohens d, som viser forskjellen mellom gjennomsnittet til to grupper, målt i standardavvik. Effektstørrelser kan klassifiseres som små, middels eller store, noe som gjør det lettere å forstå betydningen av funnene i en praktisk sammenheng. En Cohens d-verdi på 0.8 regnes oftest som en stor effekt, noe som kan ha betydelige implikasjoner for hvordan en intervensjon eller behandling vurderes. Effektstørrelser gir forskere og beslutningstakere innsikt i hvor mye en variabel påvirker en annen. En p-verdi kan bare indikere om det er en statistisk forskjell, men ikke hvor betydningsfull den forskjellen er. For eksempel kan en stor studie som finner en p-verdi på 0.03 for en forbedring på 2% i kondisjon, oppnå statistisk signifikans. Men en forbedring på bare 2% kan være så liten at den ikke har praktisk verdi for de aktuelle deltakerne eller trenerne.
Mot mer meningsfull rapportering
Når forskere rapporterer effektstørrelser sammen med p-verdier, gir det oss en mer nyansert forståelse av funnene. Rapportering av effektstørrelser kan også redusere risikoen for feilaktige konklusjoner, siden det er mindre trolig at en liten, men statistisk signifikant effekt faktisk har reell betydning (Sullivan & Feinn, 2012). For å fremme en mer meningsfull vitenskapelig praksis anbefales forskere og studenter å rapportere både effektstørrelser og p-verdier. På denne måten får vi et mer helhetlig bilde av både den statistiske og praktiske betydningen av funnene, samtidig som vi unngår feilaktige konklusjoner som kan stamme fra et snevert fokus på statistisk signifikans alene (Wasserstein, Schirm & Lazar, 2019). Eller som Gene Glass, en av de store innen effektstørrelser, sa det: «Statistical significance is the least interesting thing about the results.»
Referanser
Bartolucci, A. A., Tendera, M., & Howard, G. (2011). Meta-analysis of multiple primary prevention trials of cardiovascular events using aspirin. American Journal of Cardiology, 107(12), 1796–1801. https://doi.org/10.1016/j.amjcard.2011.02.325
Boscardin, C. K., Sewell, J. L., Tolsgaard, M. G., & Pusic, M. V. (2024). How to Use and Report on p-values. Perspectives on Medical Education, 13(1), 250–254. https://doi.org/10.5334/pme.1324
Cohen J. (1990). Things I have learned (so far). American Psychologist, 45, 1304–1312.
Sullivan, G. M., & Feinn, R. (2012). Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education, 4(3), 279–282. https://doi.org/10.4300/JGME-D-12-00156.1
Wasserstein, R., & Lazar, N. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70, 129–133. https://doi.org/10.1080/00031305.2016.1154108
Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a World Beyond “p < 0.05.” The American Statistician, 73, 1–19. https://doi.org/10.1080/00031305.2019.1583913
Nicolay Stien har en doktorgrad i idrettsvitenskap og arbeider ved Høgskulen på Vestlandet og i Metodeguiden.