Blandede modeller

Fra testwiki
Hopp til navigering Hopp til søk

En blandet modell er en statistisk modell som inkluderer både faste og tilfeldige effekter. Konvensjonelle lineære regresjonsmodeller antar at observasjonene er uavhengige fra hverandre og identisk fordelte, mens blandede modeller tillater korrelasjon innad i klynger. Blandede modeller håndterer manglende data på en robust måte, og foretrekkes derfor ofte fremfor tradisjonelle metoder som ANOVA for repeterte målinger. Det kan være vanskelig å trekke en tydelig skillelinje mellom hva som regnes som faste og tilfeldige effekter, og i praksis kan dette avhenge av forskningsspørsmålet. En vanlig brukt definisjon er at faste effekter er karakteristikker ved en hel populasjon som en gjør vil inferens på, mens nivåene til en tilfeldig effekt ses på som et tilfeldig utvalg fra en større populasjon av verdier.[1]

Motivasjon

Effekter på klyngenivå kan i prinsippet også estimeres ved bruk av faste effekter i en konvensjonell lineær modell, men denne framgangsmåten har flere svakheter. En slik modell vil for det første estimere parametre for hver klynge, som sannsynligvis ikke er interessante - både fordi de ikke vil kunne generaliseres til å si noe om klynger som ikke var med i studien, og fordi det potensielt store antallet parametre "forbruker" frihetsgrader i modellen. I motsetning til dette vil en blandet modell kun estimere varianskomponentene, som, avhengig av kovariansstruktur og antall klynger, kan være betraktelig færre. Bruken av faste effekter for å estimere klyngeffekter vil ofte også møte problemer med identifiserbarhet - hvis klyngene er konfundert med en kategorisk variabel (individer i en studie har for eksempel kun fått en type behandling), er det mulig å legge til og trekke fra et vilkårlig tall fra regresjonskoeffisientene og ende opp med identiske prediksjoner. For å unngå denne situasjonen, må man introdusere noen avgrensninger (constraints).[2]

Definisjon

En vanlig parametrisering av en blandet modell med matrisenotasjon er

𝐲=𝐗β+𝐙𝐛+ϵ

Der

  • 𝐲 er den observerte responsvariabelen, med forventning E(𝐲)=𝐗β
  • 𝐗 er designmatrisen for de faste effektene
  • β er en vektor med faste regresjonskoeffisientene
  • 𝐙 er designmatrisen for de tilfeldige effektene
  • 𝐛 er en vektor med de tilfeldige koeffisientene, med forventning E(𝐛)=𝟎, og varians-kovarians-matrise var(𝐛)=ψθ
  • ϵ er en vektor med residualene, med forventning E(ϵ)=𝟎, og varians-matrise var(ϵ)=Λσ2

Som et alternativ til å skrive modellen som én likning på denne måten, kan en også skrive modellen på klyngenivå, der indeks i refererer til klyngen, og hver klynge har ni observasjoner:

𝐲i=𝐗iβ+𝐙i𝐛i+ϵi

Dette fordi observasjoner på tvers av i skal være uavhengige, og fordi 𝐙=diag(𝐙𝟏,...,𝐙𝐍) og dermed kan bli svært stor.[3]

Korrelasjon og varians

Et mål på hvor korrelerte observasjonene innad i en klynge er, er intraklasse-korrelasjon. For en enkel blandet modell med tilfeldige konstantledd, er observasjoner j fra den samme klyngen i korrelert med følgende korrelasjonskoeffisient:

ρ=var(bi)var(bi+ϵi,j)=σb2σb2+σ2

Der

  • σb2 refererer til variansen mellom ulike klynger
  • σ2 refererer til variansen innad i klyngene

Altså øker korrelasjonen innad i klyngene med økende variasjon mellom klyngene. Hvis σb2=0, er det ingen variasjon mellom ulike klynger og modellen tilsvarer en enkel lineær regresjonsmodell. Typisk er en mer interessert i variansen til en tilfeldige effekten på tvers av klynger, enn størrelsen/retningen på de enkelte klyngeeffektene. Er variansen mellom klynger stor for en fast effekt, kan det tyde på at det er riktig å inkludere en tilfeldig effekt. Hvis korrelasjonen ρ er stor, vil det også bety at den effektive utvalgsstørrelsen er mindre enn ini.[4]

Mer generelt kan korrelasjonen mellom to observasjoner M1 og M2 i samme klynge skrives som[5]

ρ=Cov^(ϵM1,ϵM2)Var^(ϵM1)Var^(ϵM2)

Både ψθ og Λ kan bestemmes for å håndtere ulike korrelasjonsstrukturer i data. Dette vil si at det er en struktur i korrelasjonen mellom observasjonene i en klynge, for eksempel at observasjoner som ligger nært hverandre i tid eller rom er mer korrelerte enn observasjoner som er fjernt fra hverandre. En ustrukturert korrelasjonsmatrise legger ingen begrensninger på parametrene, men øker dermed antallet parametre som må estimeres. Spesielt for Λ brukes derfor ofte en av følgende mer avgrensede korrelasjonsmatriser:

  • Diagonal: Impliserer at det ikke er noen korrelasjon mellom residualene i samme klynge.
σ2(100001000010001)
  • Sammensatt symmetrisk ("compound symmetric"): Impliserer at det er en konstant korrelasjon mellom residualene.
σ2(1ρρρρ1ρρρρ1ρρρ1)
  • Ulike former autoregressive (AR) strukturer, der korrelasjon modelleres som en funksjon av avstanden mellom observasjonene. Denne strukturen antar at avstanden mellom naboobservasjoner er konstant. En første-ordens (AR(1)) matrise vil se slik ut:
σ2(1ρρ2ρpρ1ρρp1ρ2ρ1ρp2ρpρp11)

Estimering

Maximum likelihood

En blandet modell kan forenkles ved å omformuleres til en marginal modell

y=𝐗β+𝐞,𝐞N(0,Σθσ2)

Der

  • 𝐞=𝐙𝐛+ϵ
  • Σθ=𝐙ψθ𝐙T/σ2+𝐈.

Siden parameter-vektoren θ ikke er kjent, må en bruke Maximum likelihood for å estimere denne. Likelihood-funksjonen er

L(β,θ,σ2)=1(2πσ2)n|Σθ|exp[(𝐲𝐗β)TΣθ1(𝐲𝐗β)/2σ2]

En forenkling som gjør utregningen raskere, er å i stedet bruke profil-likelihooden. Dette er en generell metode som fungerer ved å partisjonere vektoren med ukjente parametre α i to deler (ψ,λ), og så velge en verdi for ψ og maksimere likelihooden med hensyn på λ. Dette er en spesielt passende metode å bruke i denne sammenhengen, fordi maximum likelihood-estimatene for β og σ2 er enkle å regne ut hvis en kjenner θ. Disse kan dermed defineres som implisitte funksjoner av θ, slik at profil-likelihooden blir

Lp(θ)=1(2πσ^θ2)n|Σθ|exp[(𝐲𝐗β^θ)TΣθ1(𝐲𝐗β^θ)/2σ^θ2]

der β^θ maximum likelihood-estimatet for β for en gitt θ, og σ^2 er det tilhørende estimatet på σ2. En kan dermed behandle Lp som en funksjon som kun avhenger av θ og bruke numerisk optimering for å finne verdien av θ som maksimerer Lp.[2] Vanligvis brukes EM-algoritmen, Newton-Raphson-metoden eller en kombinasjon av disse. EM-algoritmen fungerer ved å ta utgangspunkt i sannsynlighetsfordelingen til (β|𝐲) for det nåværende estimatet for θ, for å deretter finne den verdien av θ som maksimerer forventningen til log-likelihooden. Newton-Raphson-metoden fungerer ved å bruke gradienten til log-likelihooden for å finne neste estimat for theta.

Begrenset sannsynlighetsmaksimering

Begrenset sannsynlighetsmaksimering (restricted maximum likelihood): Et generelt problem for maximum likelihood-estimatorer av varianskomponentene, er at de er forventningsskjeve, som kan ses ved uttrykket

E(σ^ML2)=npnσ2

Dette betyr at de vil undervurdere variansen ved økende antall parameter p. For å komme seg rundt dette, brukes det ofte en alternativ metode kalt REML (REstriced Maximum Likelihood). Denne finner et skalert gjennomsnitt av likelihood-funksjonen over alle verdier av β. For balanserte data gir REML forventningsrette estimat for σ2 og ψθ.

LR(θ,σ2)=L(β,θ,σ2)dβ

Etter en har funnet varians-komponentene i θ,σ2, kan en estimere de faste parametrene i β.

For store utvalg, gir ML og REML tilnærmet like resultater. For små utvalg med balanserte data, gir REML bedre estimat fordi den er forventningsrett. For små utvalg med ubalanserte data, vil både ML og REML gi upresise estimat.[3]

Hypotesetesting/Inferens

Hypotesetesting og inferens foregår vanligvis for de faste effektene, og er presise for balanserte design. En lineær blandet modell er balansert hvis alle ni er like, og alle designmatrisene 𝐙i er like. En modell med tilfeldige koeffisienter er balansert hvis i tillegg alle designmatrisene 𝐗i er like. Dette fordi estimatene βML og σML2 da er lik estimatene βOLS og σOLS2.[3]

Frihetsgrader

For T- og F-test må en regne ut frihetsgrader for å tolke observatoren. Dette blir fort komplisert for ubalanserte design, generaliserte lineære blandede modeller (GLMM) eller kryssede tilfeldige effekter, men for balanserte, hierarkiske modeller er det mulig å regne ut nøyaktig[6]:

denDFi=mi(mi1+pi),i=1,...,Q+1
  • Der denDFi er "denominator degrees of freedom", eller nevner-frihetsgrader
  • mi er det totale antall grupper på nivå i. Inneholder modellen et konstantledd er m0=1, hvis ikke er m0=0, mens mQ+1=N.
  • mi1 er antallet grupper på nivået over
  • pi er summen av "numerator degrees of freedom"/teller-frihetsgrader for koeffisienter estimert på nivå i.

Formelen definerer nivået en koeffisient estimeres på avhengig av om den er "innenfor" eller "utenfor" det aktuelle nivået. En variabel er innenfor hvis verdien kan forandre seg innenfor et gitt nivå av klyngefaktoren, og utenfor hvis verdien ikke kan forandre seg. Et eksempel kan illustrere formelen: Hvis man forholder seg til et datasett med N=100 observasjoner, Q=2 nivå, p0=3 faste koeffisienter estimert på nivå i=2 og m1=7 grupper, blir da frihetsgradene denDF2=100(7+3)=90.

T-test

T-testen tester hypotesen H0:β=0 mot den alternative hypotesen HA:β0. T-observatoren er definert som T=β^SE(β^) Observatoren følger da Students T-fordeling med frihetsgrader bestemt av nivået av klyngevariabelen der regresjonskoeffisienten er estimert.

F-test

F-testen tar utgangspunkt i lineære hypoteser H0:𝐂β=𝟎 og HA:𝐂β𝟎, der 𝐂 er en valgt matrise for den lineære hypotesen. F-observatoren er definert som

F=β^𝐂T(𝐂(im𝐗iTΣi1𝐗i)1𝐂T)1𝐂β^Trank(𝐂)

F følger da en F-fordeling med frihetsgrader bestemt av rangen til matrisen 𝐂 og klyngenivået.

Sannsynlighetskvotetest

Hvis L0 refererer til likelihood-funksjonen til en referansemodell med p0 parametre og L1 refererer til likelihood-funksjonen til en redusert modell med p1<p0 parametre, er sannsynlighetskvotetesten, eller likelihood ratio-testen, definert som[2]

2log(L1L0)=2(log(L0)log(L1))χp0p12

Et viktig poeng er at sannsynlighetskvotetester for å teste faste effekter forutsetter at modellene som sammenlignes er estimert med maximum likelihood. Omvendt, så forutsetter sannsynlighetskvotetester for tilfeldige effekter at modellene som sammenlignes er estimert med restricted maximum likelihood.

Sannsynlighetskvotetester der en vil teste om en tilfeldig effekt kan utelukkes fra modellen krever en ytterligere justering, da den tilfeldige effekten i denne situasjonen er på grensen til parameterrommet. Dette vil si at, i motsetning til situasjonen for faste effekter der en tester H0:β=0 mot HA:β0, tester en H0:σ2=0 mot HA:σ2>0, da σ2 per definisjon er et positivt tall. Hvis en tester om en kan utelukke én tilfeldig effekt, følger testobservatoren da 12(χ02+χ12)=12χ12.[4] I praksis anbefales det å se på p-verdier fra slike tester som unøyaktige, slik at kun svært store eller små verdier brukes til å beholde eller forkaste nullhypotesen.[2]

Referanser

Mal:Statistikk Mal:Autoritetsdata