Elmélet

Egyszerű lineáris regresszió

Adott (\(x_1, y_1), \ldots, (x_n, y_n\)) számpárokra szeretnénk egyenest illeszteni. Ez egy lineáris modell lesz a két változó közötti kapcsolatra.

Modell: \(y_i=ax_i+b+ \varepsilon _i\),  ahol \(E(\varepsilon_i)=0\) és \(D^2(\varepsilon_i)=\sigma^2<\infty \quad (i=1,\ldots,n)\)
Tehát a modell nem más, mint egy egyenes + 0 várható értékű hibák. A 0 várható érték azért fontos, mert ez jelenti azt, hogy az egyenes “középen” van.

Cél: \(a\) és \(b\) becslése.
Módszer: legkisebb négyzetek: \(\displaystyle \min \sum_{i=1}^n \left( y_i - (ax_i+b) \right)^2\)
Megjegyzés: Nem csak lineáris modellben lehet alkalmazni a legkisebb négyzetek módszerét.
Tehát ezen négyzetek összterületét szeretnénk minimalizálni:

Fontos: vegyük észre, hogy a módszer nem szimmetrikus! A négyzeteket a függőleges távolságokkal definiáljuk. Ha a vízszintes távolságokkal definiálnánk őket, akkor a két változó szerepét felcserélnénk. Az aszimmetria a modell interpretációjában is megmutatkozik: \(x\)-et szokás magyarázó (vagy független, kovariáns stb.), míg \(y\)-t kimeneti (vagy függő stb.) változónak nevezni. Tehát pl. megnézzük, hogy milyen hatással van a heti edzéssel töltött percek száma a vércukorszintre.

Megoldás: \(\displaystyle \hat{a}=\frac{\sum(x_i-\overline{x})(y_i-\overline{y})}{\sum(x_i-\overline{x})^2}\), ennek szórásnégyzete: \(\displaystyle D^2(\hat{a}) = \frac{\sigma^2}{\sum(x_i-\overline{x})^2}\)
\(\displaystyle \hat{b}=\overline{y}-\hat{a}\overline{x}\), ennek szórásnégyzete: \(\displaystyle D^2(\hat{b}) = \sigma^2\left( \frac{1}{n} + \frac{\overline{x}^2}{\sum(x_i-\overline{x})^2} \right)\)

Reziduálisok: \(\displaystyle \hat{\varepsilon}_i= y_i - \hat {y_i} = y_i-(\hat{a}x_i+\hat{b}) \quad (i=1,\ldots, n)\)

Reziduális szórásnégyzet becslése: \(\displaystyle \hat{\sigma}^2= \frac{ \sum (y_i-\hat {y_i})^2 }{ n-2 }\)

A lineáris regresszió egy modellezési eszköz. A statisztikai modellek is olyanok, mint a hétköznapi értelemben használt modellek: csak leképezni próbálják a valóságot, de visszaadni nem tudják. Ebből kifolyólag körültekintéssel kell megalkotni minden modellt. A lentebb bevezetendő hipotézisvizsgálathoz a lineáris regresszió esetén feltesszük a következőket:
Linearitás: A magyarázó változó és a kimeneti változó magyarázó változó értékeire vett feltételes átlagai között lineáris az összefüggés.
Homoszkedaszticitás: A reziduálisok (hibatagok) szórása megegyezik a magyarázó változó minden értékére.
Függetlenség: Egyszerű véletlen mintából származnak az adataink, tehát függetlenek egymástól a mintaelemek.
Normalitás: A magyarázó változó minden rögzített értékére, a kimeneti változó normális eloszlású. Ez gyakorlatilag megegyezik a reziduálisok normalitásával.

Hipotézisvizsgálat a lineáris modellben

\(t\)-próba az egyes együtthatókra (feltételezzük a hibák normális eloszlását):
\(H_0: a = 0, \ H_1 : a \neq 0\)
A próbastatisztika: \(t =\frac{\hat a}{D(\hat a)}\),
ez \(n − 1\) szabadságfokú \(t\)-eloszlású, ha igaz a \(H_0\), azaz \(t\)-próbát kell végezni a fentebbi próbastatisztika segítségével.

Akkor mondjuk, hogy szignifikáns az összefüggés a két változó között, ha elutasítjuk a fenti \(H_0\) hipotézist, azaz az egyenes meredeksége nagy biztonsággal nem 0.

Lineáris regresszió több magyarázóváltozóval (többszörös regresszió)

Egy \(n\) elemű mintából a következő adatok állnak rendelkezésre: \(\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}\), az van egy kimeneti és \(p\) magyarázóváltozónk. Ebben az esetben is alkalmazható lineáris regresszió, a modell a következőféleképpen írható fel: \[y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n\] \(\varepsilon\) továbbra is a fentebbi módon definiált hibatag. \(\beta_0\) a tengelymetszet, amit az eddigiekben \(b\)-vel jelöltünk. A modell ebben az esetben nem egy egyenest, hanem egy hipersíkot generál. 2 magyarázóváltozó esetén, azaz a kimeneti változóval együtt 3 dimenzióban.

Az együtthatók kiszámolásához írjuk fel a modellt mátrix alakban:
\(\mathbf {y} =X{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\)
ahol
\[\mathbf {y} ={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad {\displaystyle X={\begin{pmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T}}\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{pmatrix}}}{\displaystyle ,} \quad {\displaystyle {\boldsymbol {\beta }}={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{pmatrix}},\quad {\boldsymbol {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.}\]

A legkisebb négyzetek becslését ebben az esetben a következőféleképpen kapjuk: \[\hat \beta = (X'X)^{−1}X'\mathbf {y}\] Ehhez persze fel kell tennünk az inverz létezését. Azt az esetet, mikor nem létezik az inverz itt nem tárgyaljuk. \(X'X\) inverze létezik abban az esetben, ha a magyarázóváltozók lineárisan függetlenek, azaz egyik magyarázóváltozót sem tudjuk kifejezni a többi lineáris kombinációjaként. Amennyiben fennáll valamilyen szintű (lineáris) összefüggés a magyarázó változók között, abban az esetben multikollinearitásról beszélünk. Ezt a gyakorlatban érdemes megvizsgálni, mert hatással lehet a modell validitására (azaz, hogy mennyire írja le jól a valóságot, valóban azt adja-e vissza, amit várunk).

Lineáris regresszió alacsony mérési szintű magyarázó változóval

Mit tudunk akkor tenni, ha a(z egyik) magyarázóváltozónk egy több szinttel rendelkező, alacsony mérési szintű változó (pl. családi állapot)? A modell ebben az esetben is felírható. A változónkon a következő transzformációt kell végrehajtani:

A több szinttel rendelkező magyarázóváltozónkat szétszedjük a szintek száma-1 db bináris változóra. Tehát a családi állapot lehet pl. egyedülálló, házas, özvegy. Ebből készítünk két olyan változót, melyből az egyik a “házas” (0 vagy 1) a másik pedig az “özvegy” (0 vagy 1). Azok a mintaelemek, melyek egyik kategóriába sem esnek egyértelműen egyedülállók lesznek, mivel a kategóriák kölcsönösen kizáróak. Az eljárást szokás “dummy-zálásnak” nevezni.

A modell felépítésekor meg kell határozni, hogy mi legyen a változó referenciakategóriája. Ezt követően az összes többi szint hatását a fenti módon definiált bináris változók segítségével tudjuk vizsgálni. Azaz visszakapjuk a fentebbi modellt: \[y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n\] Itt viszont az összes \(x_i\) bináris változó. (Természetesen lehetséges, hogy a dummy-zálás után a modellbe a bináris változókon kívül beteszünk más változókat is.)

Feladatok (papíron):

1. Adottak a következő \((\mathbf{x}, \mathbf{y})\) párok egy mintából:
\(\mathbf{x}=\{ 0, 1, 6, 5, 3\}\)
\(\mathbf{y}=\{ 4, 3, 0, 1, 2\}\)
a) Határozzuk meg az \(y=ax+b\) alakú regressziós egyenest!
b) Mi az \(x=2\)-höz tartozó előrejelzett \(y\) érték?
c) Számoljuk ki a reziduálisokat és becsüljük meg a hiba szórásnégyzetét, valamint a becsléseink szórásnégyzetét!
d) Szignifikáns-e a lineáris összefüggés a változók között?
\(2\). Tegyük fel, hogy három diák gyakorlati és vizsgajegye az alábbiak szerint alakult:
Gyakorlati jegy (x): 2, 3, 4
Vizsgajegy (y): 2, 2, 5
Határozzuk meg az \(y=ax+b\) alakú regressziós egyenest!
\(3\).Vegyük alapul a fentebbi 1. feladatot:
Végezzük el a lineáris regressziót R-ben, és értékeljük a modell eredményeit!
#A minta:
x<-c(0, 1, 6, 5, 3)
y<-c(4, 3, 0, 1, 2)

#Használandó függvények:
?lm      # a modell formula y~x1+x2 alakú (most csak 1 db x van)
?summary # az lm eredményét ezzel tudjuk részletezni
?resid   # lm modell reziduálisait adja vissza
4. Az mtcars adatbázison vizsgáljuk meg R-ben lineáris regresszióval, hogy milyen hatással van a hengerek száma (cyl) a fogyasztásra (mpg) \(\alpha=0,05\) mellett! (Ne a hengerek számának lineáris függvényével közelítsünk, hanem alkalmazzunk dummy változókat!)
5. Az mtcars adatbázison vizsgáljuk meg R-ben lineáris regresszióval, hogy milyen hatással van a váltó típusa (am) és az autó tömege (wt) a fogyasztásra (mpg) \(\alpha=0,05\) mellett!