Beskrivende statistik. Fire grafiske måder at afbilde fordelingen af fx skattepligtige indkomster for selvstændige erhvervsdrivende. Skivediagrammet er langt den mest udbredte form, mens kassediagrammet, der blev introduceret af John Tukey ca. 1975, er relativt lidt udbredt og mest anvendes i forbindelse med netop indkomstfordelinger.

.

Beskrivende statistik er en fællesbetegnelse for en række statistiske metoder, hvor resultatet af en statistisk opgørelse præsenteres på enkel måde i tabelform eller som en grafisk fremstilling. Beskrivende statistik forudsætter ikke statistisk analyse af tallene; dog kan der ofte aflæses enkle konklusioner af tabeller eller grafer.

Faktaboks

Også kendt som

deskriptiv statistik

Den beskrivende statistik sættes derfor ofte i opposition til den matematiske (eller teoretiske ) statistik.

Der skelnes mellem enkeltobservationer og grupperede observationer. Ofte ordnes enkeltobservationer, så \(x_1, x_2, ..., x_n\) er de \(n\) observationer med \(x_1\) som den mindste og \(x_n\) som den største. For grupperede observationer optælles hyppigheden af observationer i hver af de valgte kategorier. En kategori kan være fastlagt på forhånd, fx socialgruppe, eller være et interval, fx et indkomstinterval.

Et talmateriales median er den midterste værdi. Halvdelen af observationerne er større end medianen, og halvdelen er mindre. Den nedre kvartil afgrænser den nederste fjerdedel af observationerne, mens den øvre kvartil afgrænser den øverste fjerdedel. Et mål for en fordelings bredde er kvartilafstanden, dvs. afstanden mellem øvre og nedre kvartil. For grupperede materialer må der interpoleres for at beregne median og kvartiler.

En decil afgrænser 10% af et materiale, fx afgrænser 90% decilen de øverste 10% af et materiale. I visse tilfælde må der fastsættes skønsmæssige værdier for endepunkter af yderintervaller. En god oversigt over et talmateriales fordeling opnås ved at betragte median, kvartiler og deciler. Det kan gøres på tabelform eller i et kassediagram. I kassediagrammet afsættes medianen som en midterlinje, kvartilerne som kassens øvre og nedre endeflade, mens 10% decilen og 90% decilen afsættes om et punkt uden for kassen forbundet med en streg. For enkeltobservationer afbildes den mindste og største observation i stedet for de to deciler. Hvis hyppighederne summeres fra kategorier med de mindste hyppigheder op til kategorierne med de største værdier, fås de kumulerede hyppigheder.

Hyppighedsfordelingen for et talmateriale kan beskrives ved et histogram eller i et fraktildiagram. I et histogram vises den procentvise andel af observationer i et interval eller en kategori som en kasse, der har samme relative størrelse som hyppigheden. I et fraktildiagram afsættes den kumulerede hyppighed ud for det øvre endepunkt for det interval, hyppigheden svarer til. Ved en sammenligning af flere fordelinger med de samme kategorier eller intervaller vil et fladt fraktildiagram tyde på en fordeling med stor spredning, mens et stejlt fraktildiagram vil tyde på en fordeling med lille spredning. Et pindediagram er et histogram, hvor kasserne har form af smalle pinde.

Den enkleste grafiske fremstilling er skivediagrammet, populært kaldet et lagkagediagram. I skivediagrammet vises den procentvise fordeling af et kategoriseret talmateriale som andele af en skive. Lagkagestykkets relative andel af hele lagkagen er lig med den procentvise andel observationer i kategorien. Et mål for et talmateriales bredde set i relation til fordelingens midte er variationsbredden. I beskrivende statistik er denne lig med kvartilafstanden divideret med medianen. Et overblik over et materiale kan dannes ud fra et stamme- og bladdiagram. De ledende cifre i hvert tal afsættes foran en lodret streg. Dette er stammen. Bag ved stregen afsættes de efterfølgende cifre som diagrammets blade. Herved fremhæves observationernes størrelsesorden, mens de mindre betydningsfulde cifre undertrykkes. Stamme- og bladdiagrammet kan derved benyttes til at afdække hovedtendenserne i et materiale. Men der kan også afsløres skævheder eller åbenbare datafejl direkte ud fra et stamme- og bladdiagram.

En række vigtige talmaterialer er knyttet til tidsserier, hvor observationerne er tidsmæssigt ordnede i forhold til hinanden. Sådanne talmaterialer kan bruges til at afdække udviklinger over tid af sociale, økonomiske eller politiske indikatorer. I den beskrivende statistik vises udviklinger i tidsserier ved at samle naboobservationer i gennemsnitstal. Dette kaldes at udjævne en tidsserie. En enkel metode er at erstatte observationerne med medianen af de nærmeste tre, fem eller syv observationer. En sådan udjævning kaldes en trepunkts-, en fempunkts- eller en syvpunktsudjævning.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig