/deskriptiv statistikk
Deskriptiv statistikk er en gren av statistikken som fokuserer på å oppsummere og beskrive egenskapene til et datasett
I motsetning til inferensiell statistikk, som søker å trekke konklusjoner om en populasjon basert på tester, konsentrerer deskriptiv statistikk seg om å presentere data på en meningsfull måte ved hjelp av grafer, tabeller, og sammendragsmål. Det hjelper forskere, analytikere, og beslutningstakere med å forstå og tolke dataenes grunnleggende egenskaper uten å trekke konklusjoner om dataene som går utover det datasettet direkte viser.
Deskriptiv statistikk brukes i en rekke fagfeltfelt og situasjoner for å gi oversikt og innsikt i dataene. Innen markedsforskning kan for eksempel en bedrift bruke deskriptiv statistikk for å forstå kundenes kjøpsatferd, som gjennomsnittlig pengebruk, mest populære produkter, eller og spredningen i kjøpsbeløp. Innenfor utdanning kan en lærer analysere karakterene til en klasse for å finne gjennomsnittlig karakter, karakterfordelingen, og hvor stor variabilitet det er i studentenes prestasjoner. I offentlig helse kan helseinstitusjoner bruke deskriptiv statistikk for å rapportere forekomsten av ulike helseforhold i befolkningen, som gjennomsnittlig levealder, medianinntekt i ulike regioner, eller modus for spredningen av en bestemt sykdom.
En viktig del av deskriptiv statistikk er visualisering av data. Grafer og diagrammer som histogrammer, scatter-plots, boksplott, søylediagrammer, og kakediagrammer brukes ofte for å gi en visuell fremstilling av dataenes distribusjon, sentral tendens, og spredning. Deskriptiv statistikk gir grunnleggende innsikter i et datasetts egenskaper gjennom enkle sammendrag og visualiseringer. Selv om den ikke trekker inferensielle konklusjoner, er deskriptiv statistikk en svært nyttig start for dataforståelse og er et kritisk første steg i nesten enhver statistisk analyse for å gjøre seg best mulig kjent med datamaterialet.
Gjennomsnitt og standardavvik er to sentrale elementer i deskriptiv statistikk som gir oversikt over et datasett
Gjennomsnitt og standardavvik hjelper oss å forstå tendenser og spredning i dataene, noe som er avgjørende for både vitenskapelig forskning og praktisk dataanalyse. Gjennomsnittet, ofte referert til som middelverdien, er en metode for å finne det sentrale punktet i et datasett. Det regnes ut ved å summere alle observasjonene (tallene) i datasettet og deretter dele på antall observasjoner. Gjennomsnittet gir en nyttig indikator på "typisk" verdi eller sentraltendens i dataene, men det kan være følsomt for ekstreme verdier eller uteliggere. For eksempel vil gjennomsnittet av tallrekken "1,2, 3, 4, 100" bli 22, noe som ikke er representativt for tallrekken på grunn av skjevheten i dataene.
Standardavviket av den samme tallrekken blir omtrent 39. Det at dette både er høyt i forhold til tallrekken generelt, og høyere enn gjennomsnittet, forteller oss at tallrekken vi har analysert har stor varians og at tallene i datasettet skiller seg mye fra gjennomsnittet. Standardavviket er et mål på spredningen eller variasjonen av et datasett. Det forteller oss hvor mye dataene avviker fra gjennomsnittet, og gir dermed en indikasjon på datamaterialets konsistens. Et lavt standardavvik indikerer at dataene er konsentrert rundt gjennomsnittet, mens et høyt standardavvik indikerer større spredning. Gjennomsnitt og standardavvik oppgis som regel på følgende måte: Gjennomsnitt ± standardavvik (f.eks. 5.4 ± 1.2). Under kalkulatorer kan du finne verktøy for å regne ut gjennomsnitt og standardavvik for dine data .
Gjennomsnitt og standardavvik i SPSS & ExCel
I SPSS kan vi enkelt finne gjennomsnitt og standardavvik ved å trykke på "Analyze > Descriptive Statistics > Descriptives", for så å flytte de variablene man ønsker å se på bort i boksen til høyre. Før man går videre kan man trykke på "Options" dersom man ønsker å se på flere parameter, som for eksempel range eller standard error. Når man har krysset av for det man ønsker å undersøke, trykker man på "Continue" for å lukke vinduet og "OK" for å kjøre analysene.
Man får så opp en output med den informasjonen man har bedt om. I tabellen under kan vi se at gjennomsnittet for alder i utvalget vårt er 25.46 med et standardavvik på 2.39. Enkelt fortalt betyr dette at vi kan forvente at omtrent 68% av alle observasjonene vil ligge innenfor 2.39 år over eller under gjennomsnittet på 25.46. Det samme gjelder for alder. Vi kan oppgi denne informasjonen i teksten vår på denne måten:
"Denne studien inkluderte 50 menn og kvinner i en alder av 25.46 ± 2.39 år og en høyde på 174.72 ± 5.32 cm."
For å hente ut den samme informasjonen i ExCel kan vi åpne datasettet vårt i Ark 1 og gå til en tom celle (gjerne under den variabelen vi ønsker å analysere). La oss starte med høyde. Her skriver vi "=gjennomsnitt" og velger formelen som dukker opp under cellen. Deretter markerer vi alle observasjonene under "høyde" og trykker på "enter". Nå vil cellen vise gjennomsnittet for hele kolonnen. I cellen under kan vi skrive inn "=stdav.s" og velger formelen som dukker opp. Deretter markerer man de samme variablene som vi gjorde for gjennomsnitt og trykker på "enter". Cellen vil nå vise standardavviket for de markerte dataene.
Merk at man har to alternativer for standardavvik; "stdav.s" og "stdav.p". S står for sample og P står for population. Dette betyr at formlene er beregnet for å bruke på henholdsvis deler av datasettet (s) eller hele datasettet (p). Selv om vi i dette eksempelet undersøkte hele populasjonen, brukte vi likevel "stdav.s". Dette er fordi denne formelen er lik den som brukes i SPSS, så for å få samme resultat må vi benytte denne. Dersom du bruker en kombinasjon av ExCel og SPSS for å gjøre de ulike analysene dine, kan det være fint å bruke "stdav.s" for å være konsistent.
For å spare tid, kan vi etter å ha lagt inn formlene under høyde, markere disse og trekke de mot høyre. Da vil de samme formlene bli kopiert bortover og gi oss gjennomsnitt og standardavvik for alder uten at vi må skrive inn formlene på nytt. For flere illustrasjoner kan du gå til siden om ExCel.