regressionsanalyse

Verificeret
Artiklens indhold er godkendt af redaktionen.

Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

regressionsanalyse, statistisk analysemetode, der søger at bestemme sammenhænge mellem en responsvariabel y og en række forklarende variable x1, ... ,xp. Regressionsanalyse har sit udspring i F. Galtons undersøgelser fra 1870'erne af sammenhængen mellem fædres højde og deres sønners højde. Teorien er blevet udviklet betydeligt, og regressionsanalyse er i dag et centralt emne i anvendt statistik. Der er udviklet en række almindelig tilgængelige computerprogrammer, som kan udføre beregningerne i regressionsanalyse og dermed lette anvendelsen betragteligt.

Sammenhængen mellem responsvariabel og forklarende variabel kan generelt formuleres som en funktionssammenhæng,
y = f (x1, ... ,xp,β1, ... ,βk),
hvor βi er en række parametre. I regressionsanalyse ønsker man dels at undersøge, om der er en sammenhæng af en vis type (fx at f er lineær), dels at estimere de indgående parametre. Regressionsanalyse kan anvendes til at teste en kendt teoretisk årsagssammenhæng, men man kan ikke udelukkende ud fra fx målinger af fædres og sønners højder afgøre, om sønnernes højde afhænger af fædrenes eller omvendt, eller om de afhænger af en helt tredje faktor, der indvirker på begge.

Simpel lineær regression

Hvis man kun har en enkelt forklarende variabel x og ønsker at undersøge, om responsvariablen y afhænger lineært af x, taler man om en simpel lineær regression. Et eksempel er sammenhængen mellem en parcelhusgrunds pris y og dens areal x, hvor en lineær sammenhæng
y = β0+β1x
med rimelighed kan antages. Foreligger der data, dvs. observerede sammenhørende værdier af areal og pris, vil det lineære udtryk imidlertid ikke være eksakt opfyldt, da en række andre faktorer end arealet kan påvirke prisen. Derfor indføres et restled, ei, der indeholder alle karakteristika, som påvirker prisen på den i'te grund ud over arealet. Den statistiske model bliver derved, at prisen på den i'te grund er givet ved
yi = β0+β1xi+ei.
I modellen opfattes e'erne som stokastiske variable, fx normalfordelte, med middelværdi 0.

Tallene β0 og β1 er modellens parametre, der normalt ikke kendes. Derfor skal de estimeres i den statistiske analyse. Det gøres normalt ved mindste kvadraters metode. Hvis et statistisk test for hypotesen β1 = 0 viser, at den må forkastes, har man påvist en sammenhæng mellem x og y.

Multipel lineær regression

Har man flere forklarende variable, x1, ... ,xp, er
yi = β0+β1xi1+ ∙∙∙ +βpxip+ei
en multipel lineær regressionsmodel. Som i det simple tilfælde kan parametrene estimeres vha. mindste kvadraters metode.

Ikke-lineær regression

I mange tilfælde er det lineære funktionsudtryk velbegrundet, fx baseret på en fysisk lovmæssighed. Eventuelt kan en transformation, fx med logaritmen, linearisere funktionen. I andre tilfælde kan et lineært udtryk kun opfattes som en første approksimation til et mere kompliceret funktionsudtryk.

Det er imidlertid også muligt at estimere parametre og teste hypoteser direkte i statistiske modeller af formen
yi = f (xi, ... ,β1, ... ,βk)+ei,
hvor f er en ikke-lineær funktion.

Logistisk regression

I modellerne ovenfor opfattes y som et observerbart tal. Imidlertid kan man også anvende forklarende variable i tilfælde, hvor y selv er en parameter i mere sammensatte modeller. Det simpleste eksempel er den logistiske regressionsmodel, hvor y repræsenterer sandsynligheden θ for, at en hændelse indtræffer. Da et lineært udtryk kan antage vilkårlige talværdier, mens en sandsynlighed kun kan variere mellem 0 og 1, er det nødvendigt at transformere sandsynlighederne. Som model anvender man derfor198130.401.jpg

hvor θi betegner sandsynligheden for hændelsen for den i'te observation. Samme tankegang kan også anvendes i modeller baserede på andre fordelinger, fx Poisson-fordelingen.


 

Kommentarer

Skriv kommentar

Her kan du skrive en kommentar til artiklen. Du skal være logget ind for at kunne skrive kommentarer.

Hvad er en kommentar? Her kan du kommentere artiklens indhold. Dine kommentarer er synlige for alle brugere.

Find bøger

   
   Find Lydbøger
hos Storytel
   Find bøger
bogpriser.dk
   Studiebøger
pensum.dk
   E-bøger
hos g.dk

 

Hvad er et tag? Tags er artiklens nøgleord. Artikler med et fælles tag findes ved at klikke på tagget. Når du er logget ind, kan du tilføje tags og dermed skabe sammenhænge.

© Dette billede må du ...

Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

Viser 2 af 2 billeder

Filer

FilTilføjet af 
[+459583.801.svg (8.71 kB)

Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

Admin

05/02/2009

Du kan bidrage til denne artikel. Log ind her

Nyhedsbrev

Om artiklen

Seneste forfatter
Redaktionen
16/10/2009
Oprindelig forfatter
AMil
01/02/2009

© Gyldendal 2009-2013 - Powered by MindTouch Deki