I en statistisk analyse forsøges væsentlige fakta adskilt fra de tilfældigheder, der kan opstå i data. Idéen kan udtrykkes ved, at observerede data består af to komponenter, en strukturel og en tilfældig. Et konkret eksempel er et radiosignal, der som den strukturelle del skal adskilles fra den tilfældige støj, som også findes i æteren. Et andet eksempel er indsamling af stikprøver, hvor den tilfældige variation stammer fra, at den faktiske stikprøve kunne have bestået af andre individer, mens den strukturelle del er de sande værdier for hele populationen.
Den strukturelle del af data udgør ofte en form for lovmæssighed, fx fra fysikken, mens den tilfældige del kan være måleusikkerhed eller anden variation, der slører den strukturelle del. I en statistisk analyse søger man at udskille den strukturelle del fra den tilfældige ved at opstille en statistisk model, hvori den strukturelle del udtrykker det pågældende fagområdes teori, mens den tilfældige del udtrykkes ved en sandsynlighedsfordeling, der afspejler usikkerhedens natur (se også sandsynlighedsregning).
En lineær regressionsanalyse, \(y = \beta_0+\beta_1x+e\), er det typiske eksempel på en statistisk model. Den strukturelle del, \(y = \beta_0+\beta_1x+e\), udtrykker, at \(y\) er en lineær funktion af \(x\), mens den tilfældige del er restleddet \(e\), der udtrykker, at den eksakte lovmæssighed ikke genfindes i data på grund af usikkerhed. Den præcise form for usikkerheden beskrives ved sandsynlighedsfordelingen af restleddet \(e\).
I en statistisk model indgår i de fleste tilfælde en række parametre, der er ukendte talstørrelser som \(\beta_0\) og \(\beta_1\) i regressionsmodellen ovenfor. I gentagne vejninger af en genstand er en oplagt parameter genstandens sande vægt. Den tilfældige del af modellen udtrykker i dette tilfælde måleusikkerheden, som beskrives af en sandsynlighedsfordeling, der også kan afhænge af en eller flere parametre. I den statistiske analyse bestemmes modellens parametre, herunder mest interessant genstandens sande vægt, se estimation. Det gøres ved at opstille en estimator, der afhænger af data. Bestemmelsen af parameteren (estimatet) sker vha. denne estimator. Da data er påvirket af tilfældigheder, vil estimaterne også være det, og præcisionen af de fundne estimater kan vurderes vha. estimatorernes sandsynlighedsfordeling. Usikkerheden af estimatet kan opsummeres i et konfidensinterval, der afspejler, hvor meget parameteren med en vis given sandsynlighed kan være forskellig fra den sande værdi pga. tilfældigheder. Desuden kan det være væsentligt at besvare spørgsmål om værdien af modellens parametre i form af statistiske test. I en test sammenholdes data med en forudopstillet hypotese (fx om lovmæssighedens form), og vha. en sandsynlighed, kaldet signifikanssandsynligheden, vurderes det, om afvigelsen mellem observation og hypotese kan være fremkommet ved tilfældigheder, eller om den er så (usandsynlig) stor, at det må være hypotesen, der er noget galt med. I alle faser af beregningerne indgår elementer fra sandsynlighedsregningen.
Kommentarer
Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.
Du skal være logget ind for at kommentere.