Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.
regressionsanalyse, statistisk analysemetode, der søger at bestemme sammenhænge mellem en responsvariabel y og en række forklarende variable x1, ... ,xp. Regressionsanalyse har sit udspring i F. Galtons undersøgelser fra 1870'erne af sammenhængen mellem fædres højde og deres sønners højde. Teorien er blevet udviklet betydeligt, og regressionsanalyse er i dag et centralt emne i anvendt statistik. Der er udviklet en række almindelig tilgængelige computerprogrammer, som kan udføre beregningerne i regressionsanalyse og dermed lette anvendelsen betragteligt.
Sammenhængen mellem responsvariabel og forklarende variabel kan
generelt formuleres som en funktionssammenhæng,
y = f (x1, ...
,xp,β1, ...
,βk),
hvor βi er en række parametre. I
regressionsanalyse ønsker man dels at undersøge, om der er en
sammenhæng af en vis type (fx at f er lineær), dels at
estimere de indgående parametre. Regressionsanalyse kan anvendes
til at teste en kendt teoretisk årsagssammenhæng, men man kan ikke
udelukkende ud fra fx målinger af fædres og sønners højder afgøre,
om sønnernes højde afhænger af fædrenes eller omvendt, eller om de
afhænger af en helt tredje faktor, der indvirker på begge.
Hvis man kun har en enkelt forklarende variabel x og
ønsker at undersøge, om responsvariablen y afhænger
lineært af x, taler man om en simpel lineær regression. Et
eksempel er sammenhængen mellem en parcelhusgrunds pris y
og dens areal x, hvor en lineær sammenhæng
y = β0+β1x
med rimelighed kan antages. Foreligger der data, dvs. observerede
sammenhørende værdier af areal og pris, vil det lineære udtryk
imidlertid ikke være eksakt opfyldt, da en række andre faktorer end
arealet kan påvirke prisen. Derfor indføres et restled,
ei, der indeholder alle karakteristika, som
påvirker prisen på den i'te grund ud over arealet. Den
statistiske model bliver derved, at prisen på den i'te
grund er givet ved
yi = β0+β1xi+ei.
I modellen opfattes e'erne som stokastiske variable, fx
normalfordelte, med middelværdi 0.
Tallene β0 og β1 er modellens parametre, der normalt ikke kendes. Derfor skal de estimeres i den statistiske analyse. Det gøres normalt ved mindste kvadraters metode. Hvis et statistisk test for hypotesen β1 = 0 viser, at den må forkastes, har man påvist en sammenhæng mellem x og y.
Har man flere forklarende variable, x1, ...
,xp, er
yi = β0+β1xi1+
∙∙∙
+βpxip+ei
en multipel lineær regressionsmodel. Som i det simple tilfælde kan
parametrene estimeres vha. mindste kvadraters metode.
I mange tilfælde er det lineære funktionsudtryk velbegrundet, fx baseret på en fysisk lovmæssighed. Eventuelt kan en transformation, fx med logaritmen, linearisere funktionen. I andre tilfælde kan et lineært udtryk kun opfattes som en første approksimation til et mere kompliceret funktionsudtryk.
Det er imidlertid også muligt at estimere parametre og teste
hypoteser direkte i statistiske modeller af formen
yi = f
(xi, ... ,β1, ...
,βk)+ei,
hvor f er en ikke-lineær funktion.
I modellerne ovenfor opfattes y som et observerbart
tal. Imidlertid kan man også anvende forklarende variable i
tilfælde, hvor y selv er en parameter i mere sammensatte
modeller. Det simpleste eksempel er den logistiske
regressionsmodel, hvor y repræsenterer sandsynligheden
θ for, at en hændelse indtræffer. Da et lineært udtryk kan
antage vilkårlige talværdier, mens en sandsynlighed kun kan variere
mellem 0 og 1, er det nødvendigt at transformere sandsynlighederne.
Som model anvender man derfor![]()
hvor θi betegner sandsynligheden for hændelsen for den i'te observation. Samme tankegang kan også anvendes i modeller baserede på andre fordelinger, fx Poisson-fordelingen.
| Find Lydbøger hos Storytel | Find bøger på bogpriser.dk | Studiebøger på pensum.dk | E-bøger hos g.dk | ||||
Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.
Viser 2 af 2 billeder
| Fil | Tilføjet af | |
|---|---|---|
| [+] 459583.801.svg (8.71 kB) Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne. | Admin 05/02/2009 |
Du kan bidrage til denne artikel. Log ind her
© Gyldendal 2009-2013 - Powered by MindTouch Deki