.
Licens: Brukerspesifisert

Regression mod gennemsnittet. Figur 2: Lodret pil viser afstanden fra børnenes gennemsnitshøjde, hvis fædre målte 70 inches til alle børnenes gennemsnitshøjde. Vandret pil angiver afstanden fra børnenes gennemsnitshøjde til alle fædrenes gennemsnitshøjde.

.
Licens: Brukerspesifisert

Regression mod gennemsnittet er et statistisk princip, som fastslår, at hvis man foretager en serie parvise uafhængige målinger fra den samme stikprøve, vil målinger, som ligger langt fra stikprøvens gennemsnit ved den første måling, tendere til at ligge tættere på gennemsnittet ved den næste måling. Jo længere målingerne ligger fra gennemsnittet ved den første måling, jo mere udtalt er fænomenet. Regression mod gennemsnittet opstår på grund af målefejl som følge af ukendte eller ukontrollable faktorer. Det kan resultere i, at en målbar effekt opfattes som en følge af en intervention, når det i virkeligheden skyldes tilfældighed.

Fænomenet "retur mod gennemsnittet" (eng. "regression towards the mean") blev første gang diskuteret og beskrevet i 1886 i artiklen "Regression towards Mediocrity in Hereditary Stature" af sir Francis Galton (1822-1911) (1,2). Han var selvlærd genetiker, geograf, astronom, meteorolog, antropolog, statistiker og opfinder af fingertryksidentificering. Galton spekulerede over det tilsyneladende almindelige forfald, og spurgte sig selv, hvordan det kunne være, at fremragende fædre ikke fik tilsvarende fremragende sønner. Da det er svært at finde et mål for det at være fremragende, besluttede Galton sig til i stedet at undersøge om legemshøjde nedarves ved at beregne sammenhængen mellem forældres og børns højde.

Galton målte højden på 250 forældre og deres 930 voksne børn. Han justerede mødrenes højde ved at multiplicere med 1,08. Forældrenes højde var summen af farens og morens justerede højde divideret med 2.

Galton sikrede sig, at der ikke var en systematisk tendens til at høje mænd giftede sig med høje kvinder, og at korte mænd giftede sig med korte kvinder. Han plottede sammenhængen mellem forældrenes og de voksne børns gennemsnitshøjde (3), se figur 1.

Galton troede, han havde gjort en stor opdagelse, da han fandt, at sønner af meget høje fædre tenderede til at være højere end gennemsnittet, men kortere end deres fædre, og sønner af meget korte fædre tenderede til at være kortere end gennemsnittet, men højere end deres fædre. Det så ud som om, at en eller anden ukendt faktor forårsagede, at menneskets højde bevægede sig væk fra det ekstreme, men mod gennemsnittet. Galton kaldte fænomenet "regression towards mediocrity" ("tilbagevenden til middel-mådelighed").

Børn og forældre i Galtons undersøgelse havde den samme gennemsnitshøjde på 68,2 inches, men spredningen var forskellig. Da børnenes højder var individuelle højder, spredte børnenes højder mere end forældrenes. Forældrenes justerede højder var et gennemsnit af farens og moderens justerede højde, hvilket reducerede variationsbredden. Ser man fx på den gruppe af høje forældre, som havde en "midparent"-højde, som lå mellem 70 og 71 inches, var deres børns gennemsnitshøjde 69,5 inches, hvilket var tættere på hele børnegruppens end deres forældres gennemsnitshøjde var på alle forældrenes gennemsnitshøjde 68,2 inches, se figur 2.

Selvom Galton populariserede regressionsbegrebet, misforstod han fundamentalt fænomenet. Han forklarede det på følgende måde: "Et barn arver dels fra sine forældre dels fra sine forfædre". Med andre ord troede Galton, at regression mod gennemsnittet (RMG) simpelthen var nedarvet af egenskaber fra forfædrene, som ikke er udtrykt i forældrene.

Lad os antage, at RMG ikke forekommer. Antag også, at fordelingen af højde fra generation til generation er stabil, at gennemsnittet og spredningen på højderne heller ikke ændrer sig. Antag også, at sammenhæng mellem højderne ikke er perfekt. Det betyder, at afkommets højde ikke kan forudsiges præcist ud fra forældrenes højde, da højderne varierer. Ser man på de højeste forældre i en generation, vil deres børn have gennemsnitlig den samme højde som forældrene, men nogle vil være højere og nogle kortere for at udligne de høje. Det betyder, at spredningen på højderne i næste generation vil blive større end før, fordi de højeste vil blive højere end de højeste før og de korteste kortere end de korteste før. Det vil fortsætte fra generation til generation. Erfaringen har vist, at det ikke sker. Menneskets højde tenderer til at være stabil. Denne stabilitet vil kun forekomme, hvis sønnerne af meget høje fædre i gennemsnittet er kortere, og hvis sønnerne af korte fædre i gennemsnittet er højere.

Statistisk baggrund

Regressionsanalyse er en metode til at beskrive sammenhængen mellem to variable som fx forældres og børns højde, så man kan forudsige den ene variable ud fra den anden.

Regressionsanalyse anvendes i eksperimenter, hvor man kan kontrollere den ene variable (den uafhængige) og observere den anden (den afhængige). Hvis man plotter forældrehøjder over for deres børns højde vil punkterne ligge mere eller mindre tæt på en ret linje. På grund af målefejl – tilfældig eller usystematisk variation, som er bestemt af ukendte eller ukontrollable faktorer – vil punkterne aldrig ligge på en ret linje. Brødre har fx ikke altid samme højde. Børnenes højde kan således ikke præcist forudsiges ud fra forældrenes højde.

Man kan beregne ligningen for den rette linje, som bedst beskriver sammenhængen ved hjælp af "mindste kvadraters metode". Galton benævnede den rette linje regressionslinjen. Formlen for regressionslinjen er \(y = a+b\cdot x\), hvor y er den afhængige variable, \(x\) er den uafhængige variable, a er det punkt, hvor regressionslinjen skærer \(y\)-aksen, \(b\) er regressionskoefficienten af \(y\) på \(x\) og angiver den gennemsnitlige ændring af \(y\) for hver ændring af \(x\). Korrelationskoefficienten (\(r\)) angiver, hvor stor afstand punkterne ligger fra regressionslinjen. Hvis variablerne \(x\) og \(y\) har standardafvigelserne \(sx\) og \(sy\) og korrelationskoefficienten \(r\), vil hældningen af regressionslinjen være \(r \cdot sy/sx\). For en given værdi af \(x\) vil den forudsagte værdi af \(y\) ligge længere fra sit gennemsnit end \(x\) fra sit gennemsnit. Medmindre \(x\) og \(y\) er præcist lineært korreleret, så alle punkter ligger på en ret linje, er \(r\) mindre end 1. Jo mindre grad af korrelation (jo lavere \(r\)) der er mellem de to variabler, jo højere grad af RMG.

Ved anvendelse af Galtons målinger kan hældningen af regressionslinjen af børnenes højde på forældrenes estimeres til 0,61 (figur 2), altså langt fra 1. Galton havde beregnet regressionslinjen med forældrenes højde som den uafhængige, men havde ikke i første omgang overvejet den anden regressionslinje, som var beregnet på basis af børnenes højde som den uafhængige variable. Den viste, at lave børn havde lave forældre, men de var ikke så lave som børnene, og høje børn havde høje forældre, men de var ikke så høje som børnene. Det kunne igen tyde på, at højderne ville blive mere ekstreme i de kommende generationer. Hvis børnenes højde er mere moderat end forældrenes, ville man forvente, at forældrenes højde ville være mere ekstreme end børnenes. Stiller man det omvendte spørgsmål og forudsiger forældrenes højde fra børnenes, bliver hældningen på regressionslinjen 0,29 – altså mindre hældning end 0,61. Havde der været symmetri mellem de to linjer, ville man forvente, at hældningen var større end 1, da den forriges hældning var mindre end 1. Der er imidlertid ingen symmetri mellem \(x\) og \(y\) variablerne. Det skyldes, at målefejlen kun minimeres i den ene retning – i \(y\) variablens. I virkeligheden er de to regressionsanalyser kompatible og i fuld overensstemmelse med, at der ikke forekommer ændringer i højdefordelingen mellem generationerne.

Eksempler

RTM forekommer inden for lægevidenskaben i forbindelse med diagnostik og behandling, økonomiske indgreb, fysisk træning, undervisning, træning af piloter og meget andet, hver gang man anvender en ikke tilfældigt udvalgt stikprøve og måler to variable, som ikke er perfekt korrelerede pga. målefejl (tilfældig variation). Jo ringere de to variable er korrelerede, jo større effekt har RMG. RMG kan resultere i, at man fejlagtigt konkluderer, at en observeret virkning skyldes en behandling eller anden intervention, når den i virkeligheden mere eller mindre skyldes RMG (4). RMG er et gruppefænomen, og man kan ikke på forhånd vide, i hvilken retning den enkelte persons måling vil bevæge sig. Selvom stikprøvens gennemsnit vil bevæge sig mod populationens, vil nogle medlemmer af gruppen bevæge sig i modsat retning.

Udvælger man én gruppe patienter med forhøjet blodtryk, behandler dem med blodtrykssænkende medicin og måler blodtryk før og efter behandlingen, vil man opdage, at stikprøvens gennemsnitlige blodtryk er faldet efter behandlingen. Det kan ikke umiddelbart tages som indtægt for, at behandlingen har virket. Det gennemsnitlige blodtryk vil falde pga. fænomenet RMG selv hos patienter, der ikke er blevet behandlet. En kontrolgruppe, som man behandler med placebo, ville også udvise et fald som følge af RMG. Det er et statistisk fænomen, som kan få naturlig variation ved gentagne målinger til at se ud som en reel effekt af en undersøgelse, en medicinsk behandling eller anden form for intervention (5).

Det er muligt, at overvågningskamera kan reducere antallet af trafikforseelser og kriminalitet, men for at undgå at overvurdere den evt. gavnlige effekt på lovovertrædelserne af kameraerne, må effekten af RMG inkluderes i vurderingen.

Tildeler man sygehuse, som ligger højt på listen over utilsigtede hændelser flere resurser vil RMG medføre, at de pludselig falder på listen. Omvendt vil hospitaler, der ligger lavt på resultatlisten, og som belønnes med flere resurser, stige på listen.

I to undersøgelser sammenlignede man personers angivelse af deres vægt, hvorefter de blev vejet (7,8). Der blev foretaget regressionsanalyse, hvor den oplyste vægt var den uafhængige variable og den faktuelle vægt den afhængige variable. Korellations-koefficienten var mindre end 1. De tungestes gennemsnitlige angivne vægt var mindre end den målte vægt, og de lettestes gennemsnitlige angivne vægt var større end den målte. Umiddelbart kan disse resultater føre til den fejlagtige konklusion, at de overvægtige tenderer til at undervurdere deres vægt og de ekstremt tynde til at overvurdere den. I virkeligheden kunne man forudsige dette resultat, da korrelationskoefficienten er mindre end 1. Havde man foretaget en regressionsanalyse, hvor den faktuelle vægt var den uafhængige variable og den oplyste vægt den afhængige, ville regressionskoefficienten også blive mindre end 1, og man ville være kommet til den modsatte konklusion.

Forebyggelse

Ved anvendelse af den kontrollerede kliniske undersøgelse vil RMG (og placeboeffekten) i kontrolgruppen og interventionsgruppen være af samme størrelse i begge grupper. Forskellen på behandlingseffekten i de to grupper giver et estimat af ændring pga. RMG. Forskellen mellem den gennemsnitlige ændring i behandlingsgruppen og den gennemsnitlige ændring i placebogruppen er derved et estimat af behandlingseffekten efter justering for RMG. Beslutninger bør derfor være baseret på evidens fra kontrollerede undersøgelser.

RMG kan også reduceres ved at foretage flere på hinanden følgende målinger før en behandling eller anden intervention og anvende gennemsnittet af målingerne som udtryk for sygdomsgraden. Udvælgelseskriteriet er så baseret på gennemsnittet af multiple målinger.

Regression mod gennemsnittet er et statistisk princip, som fastslår, at tager man en uafhængig serie af parvise målinger fra den samme stikprøve, så vil målinger langt fra gennemsnittet ved første måling tendere til at ligge tættere på gennemsnittet ved den anden måling. Jo længere fra gennemsnittet de første målinger er, jo større effekt. Retur mod gennemsnittet opstår på grund af målefejl, som medfører, at korrelationskoefficienten bliver mindre end 1, og den afhængige variabel derfor regredierer mod gennemsnittet.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig