Lineær regresjon

Fra testwiki
Hopp til navigering Hopp til søk
Eksempel på en linje (rød) bygget ved hjelp av lineær regresjon

Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.


Gitte opplysninger og antagelser

Man har gitt en mengde datapunkter på formen (x1,y1),(x2,y2),...,(xn,yn) hvor minst 2 xi er forskjellige og man ønsker å finne en funksjon y=f(x) som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

f(x)=i=0naixi=a0+a1x++anxn

og det er koeffisientene ai som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a0 og a1 er 0.


Minste kvadraters metode for rett linje

For n gitte datapunkter ønsker man å finne en linje på formen

y=a0+a1x

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

|yj(a0+a1xj)|

for alle j, og deretter bestemnme a0 og a1 slik at man minimaliserer summen av kvadratene av disse, dvs

mina0,a1q=(j=1n(yja0a1xj)2)

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

qa0=0ogqa1=0

Ved å derivere uttrykket for q med hensyn på a0 og a1 (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

yy¯=k1(xx¯)

hvor

x¯=1ni=1nxi,y¯=1ni=1nyi,ogk1=sxysx2

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

sxy=1n1i=1n(xix¯)(yiy¯)=1n1[i=1nxiyi1n(i=1nxi)(j=1nyj)]

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)

sx2=1n1i=1n(xix¯)2=1n1[i=1nxi21n(i=1nxi)2]


Utledning av formelen for regresjonslinjen

Ved å utføre de to derivasjonene får man

qa0=2i=1n(yia0a1xi)ogqa1=2i=1nxi(yia0a1xi)

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

a0n+a1xi=yia0xi+a1xi2=xiyi

Dette systemet av to ukjente har en determinant

|nxixixi2|=nxi2(xi)2=n(n1)sx2=n(xix¯)2

som er ulik 0 på grunn av antakelsen om minst to forskjellige xi og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man a0=y¯a1x¯ som sammen med y=a0+a1x gir den ønskede regresjonskurven

yy¯=a1(xx¯)

Eliminasjonsmetoden gir uttrykket

a1=k1=nxiyixiyjn(n1)sx2

Hvor godt passer linjen til punktene

Når man har funnet den regresjonslinjen som passer best til punktene, bør man beregne hvor godt den passer. Det enkleste målet som er vanlig å benytte er korrelasjonskoeffisienten R2. En R2-verdi nær 1 (nær 100 %) angir at regresjonslinjen passer veldig bra, mens en verdi nær null angir at linjen ikke passer.[2] Pearsons korrelasjonskoeffisient er et annet mye brukt mål.[3]

Referanser

  1. E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
  2. Mal:Kilde bok
  3. Mal:Kilde bok

Mal:Autoritetsdata