Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

.

Regressionsanalyse er en statistisk analysemetode, der søger at bestemme sammenhænge mellem en responsvariabel \(y\) og en række forklarende variable \(x_1, ..., x_p\).

Regressionsanalyse har sit udspring i F. Galtons undersøgelser fra 1870'erne af sammenhængen mellem fædres højde og deres sønners højde. Teorien er blevet udviklet betydeligt, og regressionsanalyse er i dag et centralt emne i anvendt statistik. Der er udviklet en række almindelig tilgængelige computerprogrammer, som kan udføre beregningerne i regressionsanalyse og dermed lette anvendelsen betragteligt.

Sammenhængen mellem responsvariabel og forklarende variabel kan generelt formuleres som en funktionssammenhæng, \(y = f (x_1, ... ,x_p, \beta_1, ... ,\beta_k)\), hvor \(\beta_i\) er en række parametre. I regressionsanalyse ønsker man dels at undersøge, om der er en sammenhæng af en vis type (fx at \(f\) er lineær), dels at estimere de indgående parametre. Regressionsanalyse kan anvendes til at teste en kendt teoretisk årsagssammenhæng, men man kan ikke udelukkende ud fra fx målinger af fædres og sønners højder afgøre, om sønnernes højde afhænger af fædrenes eller omvendt, eller om de afhænger af en helt tredje faktor, der indvirker på begge.

Simpel lineær regression

Hvis man kun har en enkelt forklarende variabel x og ønsker at undersøge, om responsvariablen \(y\) afhænger lineært af \(x\), taler man om en simpel lineær regression. Et eksempel er sammenhængen mellem en parcelhusgrunds pris \(y\) og dens areal \(x\), hvor en lineær sammenhæng \(y = \beta_0 + \beta_1x\) med rimelighed kan antages. Foreligger der data, dvs. observerede sammenhørende værdier af areal og pris, vil det lineære udtryk imidlertid ikke være eksakt opfyldt, da en række andre faktorer end arealet kan påvirke prisen. Derfor indføres et restled, \(e_i\), der indeholder alle karakteristika, som påvirker prisen på den \(i\)'te grund ud over arealet. Den statistiske model bliver derved, at prisen på den \(i\)'te grund er givet ved \(y_i = \beta_0+\beta_1x_i+e_i\). I modellen opfattes \(e\)'erne som stokastiske variable, fx normalfordelte, med middelværdi \(0\).

Tallene \(\beta_0\) og \(\beta_1\) er modellens parametre, der normalt ikke kendes. Derfor skal de estimeres i den statistiske analyse. Det gøres normalt ved mindste kvadraters metode. Hvis et statistisk test for hypotesen \(\beta_1 = 0\) viser, at den må forkastes, har man påvist en sammenhæng mellem \(x\) og \(y\).

Multipel lineær regression

Har man flere forklarende variable, \(x_1, ..., x_p\), er \(y_i = \beta_0+\beta_1x_{i1}+ \dots + \beta_px_{ip}+e_i\) en multipel lineær regressionsmodel. Som i det simple tilfælde kan parametrene estimeres vha. mindste kvadraters metode.

Ikke-lineær regression

I mange tilfælde er det lineære funktionsudtryk velbegrundet, fx baseret på en fysisk lovmæssighed. Eventuelt kan en transformation, fx med logaritmen, linearisere funktionen. I andre tilfælde kan et lineært udtryk kun opfattes som en første approksimation til et mere kompliceret funktionsudtryk.

Det er imidlertid også muligt at estimere parametre og teste hypoteser direkte i statistiske modeller af formen \(y_i = f (x_i, ... ,\beta_1, ... ,\beta_k)+e_i\), hvor \(f\) er en ikke-lineær funktion.

Logistisk regression

I modellerne ovenfor opfattes \(y\) som et observerbart tal. Imidlertid kan man også anvende forklarende variable i tilfælde, hvor \(y\) selv er en parameter i mere sammensatte modeller. Det simpleste eksempel er den logistiske regressionsmodel, hvor \(y\) repræsenterer sandsynligheden \(\theta\) for, at en hændelse indtræffer. Da et lineært udtryk kan antage vilkårlige talværdier, mens en sandsynlighed kun kan variere mellem \(0\) og \(1\), er det nødvendigt at transformere sandsynlighederne. Som model anvender man derfor \[\log \left( \frac{\theta_i}{1-\theta_i}\right) = y_i = \beta_o + \beta_1x_{i1}+ \dots + \beta_px_{ip},\] hvor \(\theta_i\) betegner sandsynligheden for hændelsen for den \(i\)'te observation. Samme tankegang kan også anvendes i modeller baserede på andre fordelinger, fx Poisson-fordelingen.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig