I en statistisk analyse forsøges væsentlige fakta adskilt fra de tilfældigheder, der kan opstå i data. Idéen kan udtrykkes ved, at observerede data består af to komponenter, en strukturel og en tilfældig. Et konkret eksempel er et radiosignal, der som den strukturelle del skal adskilles fra den tilfældige støj, som også findes i æteren. Et andet eksempel er indsamling af stikprøver, hvor den tilfældige variation stammer fra, at den faktiske stikprøve kunne have bestået af andre individer, mens den strukturelle del er de sande værdier for hele populationen.

Den strukturelle del af data udgør ofte en form for lovmæssighed, fx fra fysikken, mens den tilfældige del kan være måleusikkerhed eller anden variation, der slører den strukturelle del. I en statistisk analyse søger man at udskille den strukturelle del fra den tilfældige ved at opstille en statistisk model, hvori den strukturelle del udtrykker det pågældende fagområdes teori, mens den tilfældige del udtrykkes ved en sandsynlighedsfordeling, der afspejler usikkerhedens natur (se også sandsynlighedsregning).

En lineær regressionsanalyse, \(y = \beta_0+\beta_1x+e\), er det typiske eksempel på en statistisk model. Den strukturelle del, \(y = \beta_0+\beta_1x+e\), udtrykker, at \(y\) er en lineær funktion af \(x\), mens den tilfældige del er restleddet \(e\), der udtrykker, at den eksakte lovmæssighed ikke genfindes i data på grund af usikkerhed. Den præcise form for usikkerheden beskrives ved sandsynlighedsfordelingen af restleddet \(e\).

I en statistisk model indgår i de fleste tilfælde en række parametre, der er ukendte talstørrelser som \(\beta_0\) og \(\beta_1\) i regressionsmodellen ovenfor. I gentagne vejninger af en genstand er en oplagt parameter genstandens sande vægt. Den tilfældige del af modellen udtrykker i dette tilfælde måleusikkerheden, som beskrives af en sandsynlighedsfordeling, der også kan afhænge af en eller flere parametre. I den statistiske analyse bestemmes modellens parametre, herunder mest interessant genstandens sande vægt, se estimation. Det gøres ved at opstille en estimator, der afhænger af data. Bestemmelsen af parameteren (estimatet) sker vha. denne estimator. Da data er påvirket af tilfældigheder, vil estimaterne også være det, og præcisionen af de fundne estimater kan vurderes vha. estimatorernes sandsynlighedsfordeling. Usikkerheden af estimatet kan opsummeres i et konfidensinterval, der afspejler, hvor meget parameteren med en vis given sandsynlighed kan være forskellig fra den sande værdi pga. tilfældigheder. Desuden kan det være væsentligt at besvare spørgsmål om værdien af modellens parametre i form af statistiske test. I en test sammenholdes data med en forudopstillet hypotese (fx om lovmæssighedens form), og vha. en sandsynlighed, kaldet signifikanssandsynligheden, vurderes det, om afvigelsen mellem observation og hypotese kan være fremkommet ved tilfældigheder, eller om den er så (usandsynlig) stor, at det må være hypotesen, der er noget galt med. I alle faser af beregningerne indgår elementer fra sandsynlighedsregningen.

Historie

Tidligere tiders statistiske analyser var stærkt ad hoc-prægede. I demografi søgte man at udrede forhold ud fra de få observationer, man havde om befolkningsforhold. Et tidligt eksempel er en dødelighedstabel for byen Breslau, der blev konstrueret af astronomen E. Halley i 1693. En fortsættelse af denne linje er forsikringsmatematikken. Den statistiske analyse i samfundsvidenskaberne bar i høj grad præg af erfaringsopsamling fra mindre dele af samfundet, men teknikkerne er siden udviklet til den meget præcise, ofte registerbaserede statistik om samfundsforhold, der findes i dag. I medicin og naturvidenskab var statistiske analyser ukendte, idet resultater af målinger blot blev videregivet.

Længe var der intet samarbejde mellem statistik og sandsynlighedsregning, idet sandsynlighedsregning blev opfattet som en matematisk disciplin, der især kunne anvendes til vurdering af spil. Først i sidste halvdel af 1800-tallet begyndte man at benytte sandsynlighedsregningen til behandling af data.

Eksempler på tidlig anvendelse af egentlig statistisk analyse er bestemmelsen af planetbaner, hvor banens form er givet ved en fysisk lov, mens målingen af planetens position var behæftet med stor usikkerhed som følge af tidens unøjagtige instrumenter. For data af denne type benyttede C.F. Gauss mindste kvadraters metode til at beregne den sande kurve ved en form for udglatning af de støjplagede data. Hans metode kan opfattes som opstilling af en statistisk model, der beskrev målefejlene som normalfordelte. Ved egentlige statistiske ræsonnementer uddrog Gauss konklusioner om den sande kurve, fx sandsynlighedsteoretiske beregninger af estimatorernes varianser.

Moderne statistik

Den nuværende teoretiske statistik blev som selvstændigt fag først udviklet i begyndelsen af 1900-tallet af bl.a. Karl Pearson og Ronald Fisher, der pointerede vigtigheden af, at analysen af data tog udgangspunkt i en statistisk model. Vha. en velformuleret statistisk model er det nemlig muligt at udvinde langt mere information af data. Fisher grundlagde bl.a. variansanalysen som en velvalgt statistisk model for de mange forsøg, der foregik på den forsøgsgård, hvor han var ansat.

Den teoretiske statistiske forskning fortsætter arbejdet med at underbygge det generelle (især det sandsynlighedsteoretiske) fundament for den statistiske analyse, og derfor arbejdes der mere med modellerne end med egentlige dataanalyser. Inden for de forskellige anvendelsesområder af statistikken arbejdes der på at forbedre de statistiske modeller, og i dette arbejde inddrages konkrete data. Meget af den nuværende statistiske forskning er derfor snævert knyttet til udviklingen i en række andre videnskaber som skitseret nedenfor.

Computere gav i 1990'erne i stigende grad statistikere mulighed for at udføre analyser, der i praksis var umulige blot få år tidligere. Takket være de regnemuligheder, som computerne giver, er det muligt at opstille og behandle langt mere komplicerede modeller end tidligere, hvorved mere raffinerede strukturelle sammenhænge kan afdækkes. Statistiske programpakker som SPSS og SAS har givet både statistikere og andre mulighed for at udføre egentlige analyser. Derved øges risikoen naturligvis for, at der kan opstå fejlfortolkninger af data, men programpakkerne giver også fagfolk, fx læger, mulighed for at foretage relevante, ofte rutineprægede, analyser med baggrund i en begrænset statistisk viden.

I 1885 blev ISI (International Statistical Institute) grundlagt som en international forening for al statistik. Den har forskellige underafdelinger, bl.a. for teoretisk statistik og officiel statistik. Desuden findes der mange foreninger for specielle anvendelsesområder af statistikken, fx Biometric Society, der fokuserer på anvendelsesområder inden for medicin og biologi, og Econometric Society, der ud over forskere i matematisk økonomi samler økonometrikere fra hele verden.

Anvendelser

Inden for mange anvendelsesområder som fx medicin, psykologi og ingeniørvidenskab er den statistiske tradition relativt ny og som hovedregel først grundlagt efter 2. Verdenskrig. Men i dag findes mange store statistiske forskningsmiljøer knyttet til fagdisciplinerne. Det er kendetegnende for statistik, at de samme modeller og metoder kan anvendes inden for en lang række forskellige fagområder.

I lægevidenskab analyseres kliniske forsøg med behandlingsformer og afprøvning af medicin både ved læreanstalter, hospitaler og i medicinalindustrien, se biostatistik, kontrolleret klinisk undersøgelse og overlevelsesmodeller. I landbrugsvidenskab udføres dyrkningsforsøg, der planlægges med henblik på en efterfølgende statistisk analyse, se forsøgsplanlægning, og de relevante statistiske modeller for data er variansanalyse og fx regressionsmodeller for vækst. I tekniske discipliner studeres bl.a. digital signalbehandling, billedbehandling og kvalitetsstyring.

Inden for økonomi har statistik ud fra et oprindeligt ønske om at studere samfundsmæssige forhold ud fra data udviklet sig til to adskilte fag, nemlig den teoretiske statistik og samfundsbeskrivelsen. Den konkrete anvendelse af statistik i empirisk analyse af teoretisk begrundede økonomiske modeller betegnes økonometri, hvori regressionsanalyse, men også tidsrækkeanalyse udgør en væsentlig del.

I erhvervsøkonomi anvendes ofte stikprøveanalyser til at bestemme markedsforholdene for varer og til at studere, hvor mange og hvilke typer personer der fx ser bestemte tv-programmer. Den statistiske efterbehandling af data består ofte i at uddrage en latent størrelse, fx folks vilje til at købe et bestemt produkt, ud fra en række målbare størrelser.

I sociologi studeres ofte data i form af kategoriserede data som fx social status vha. kontingenstabeller.

Et eksempel på en statistisk analyse

I en avisartikel om besparelsen ved indkøb i en discountbutik frem for i et almindeligt supermarked sammenlignes priser på \(21\) dagligvarer. Besparelsen er for hver vare udregnet i procent og varierer fra \(58\%\) til, at discountprisen faktisk er \(10\%\) højere. Som statistisk model antages, at de \(21\) observerede besparelser er observationer af en normalfordelt variabel med middelværdi \(\mu\) og varians \(\sigma^2\). Parameteren \(\mu\) repræsenterer derved den typiske besparelse. Den estimeres som gennemsnittet \(\bar{x}\) af de observerede besparelser til \(10\%\). Variationen i data er imidlertid stor, idet variationen \(\sigma^2\), der estimeres ved observationernes empiriske varians \(s^2\), er \[s^2=\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 = 482\]

Usikkerheden på estimatoren for \(\mu\) kan beregnes, da variansen på et gennemsnit af ensfordelte, uafhængige observationer er lig med variansen divideret med antal observationer. Derfor er gennemsnittet normalfordelt med den sande værdi af \(\mu\) som middelværdi og varians, der er \(482/21 = 23\). Et \(95\%\)-konfidensinterval for \(\mu\) er givet ved ca. 2 gange standardafvigelsen, dvs. \(10\pm \sqrt{23}\); besparelsen kan således skønnes til at være mellem \(0\text{,}4\%\) og \(19\text{,}6\%\). Et mere præcist skøn kræver, at der betragtes flere end \(21\) varer.

Statistik i Danmark

Den moderne teoretiske statistik blev ført til Danmark 1930-50 af Georg Rasch og Anders Hald. Rasch havde ud over praktisk statistisk erfaring fra en lang række konsulentarbejder også studeret hos Fisher. Hald grundlagde som professor ved Københavns Universitet det første egentlige statistikstudium omkring 1960.

Ved de matematiske afdelinger findes specielle studier i teoretisk statistik, og ved bl.a. ingeniør- og økonomistudierne er det muligt at specialisere sig i statistik, da der her findes større statistiske miljøer. Desuden indgår statistikkurser i mange studier som et redskabsfag, hvori simple statistiske metoder gennemgås. Disse kurser sætter de studerende i stand til selv at foretage enklere analyser, og da de lærer den bagvedliggende teori, kan de også i samarbejde med fagstatistikere foretage mere avancerede analyser.

I Danmark er alle teoretiske statistikere samlet i Dansk Selskab for Teoretisk Statistik (stiftet 1971), mens Statistisk Forening samler statistikere og brugere af statistik om samfundsforhold med udgangspunkt i Danmarks Statistik.

Læs også statistik om samfundsforhold.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig