A matematikai statisztika eddig tárgyalt fejezetei többnyire egy valószínûségi változóval foglalkoztak, ha pedig többel, akkor is feltételezték azok egymástól való függetlenségét. Nyilvánvaló ugyanakkor, hogy vizsgált rendszereket leíró, azokra ható változók közötti összefüggések elsõrendû fontosságúak.
Az összefüggések többféle szempontból tárgyalhatók, pl. abból, hogy okságiak-e, avagy nem azok, hogy van-e róluk elõzetes ismeretünk avagy csak tapasztalati leírásunk stb. A továbbiakban aszerint tegyünk különbséget, hogy két (vagy több) valószínûségi változó összefüggésével kell foglalkozni, avagy nem valószínûségi (determinisztikus) változók hatnak egy valószínûségi változóra. Ez utóbbi változó legtöbbször azért tekintendõ valószínûségi változónak, mert pontos, valódi értékét rátelepedett hiba terheli:
Y = Yvalódi + e (7.1)
Ebben az esetben Y eloszlása megegyezik e eloszlásával,
annyi különbséggel, hogy ha e várható értéke
0, akkor Y-é Yvalódi.
7.1 Valószínûségi változó függése determinisztikus változó(k)tól.
Bizonyos, hogy a gyakorlatban változót hibátlanul
nem lehet mérni vagy beállítani, elvben tehát
determinisztikus változó nincs. Az azonban mégis elfogadható,
hogy egyes független változók két-három
nagyságrenddel pontosabbak, mint a függõ, így
nem okoz nagy hibát, ha azokat determinisztikusnak tekintjük.
7.1.1 A legkisebb négyzetek elve
Akár valószínûségi változó függ determinisztikus változó(k)tól, akár determinisztikus, szükségünk van egy matematikai összefüggésre (modellre), amelyik a függést leírja. Jelöljük a modellt F-fel. Ilyen modell lehet egy origón áthaladó vagy általános helyzetû egyenes, egy exponenciális függvény stb. A modellnek állandói (konstansai, paraméterei) vannak (meredekség, tengelymetszet) és független változói. Legyen az elöbbiek jele a1, a2, utóbbiaké x1, x2 , de egyszerûség kedvéért tekintsünk most egyetlen x-t. A független változókat "prediktoroknak" vagy "regresszoroknak" is nevezik. A számított (jósolt, predikált) érték jel legyen y.
A modell tehát teljesen általánosan így fest:
Y = F(x1,x2, a1,a2 )
Ha a paraméterek ismertek, beállított független változóknál y kiszámítható. A feladatot azonban általában meg kell elõzze a paraméterek meghatározása (becslése), egyfajta "kalibráció". Ismert x értékeknél párhuzamos kisérletekben meghatározzunk y mért értékeket, és a paramétereket tekintjük ismeretleneknek. Ha a mérések pontosak lennének, bármelyikbõl ki lehetne számítani az ismeretlen a1, a2, paramétereket. A kapott y értékeket azonban ismeretlen hibával mérjük:
F(x2,a1,a2, ) = y2 + e 2 F(xn,a1,a2, ) = yn + e n |
(7.2) |
ezért a (7.2) egyenletekbõl mérésrõl mérésre más a paraméterek adódnának. Megállapodás szerint azokat az a1, a2, értékeket fogadjuk el optimálisnak, amelyeknél a mért és számított értékek különbségnégyzeteinek összege minimális:
(7.3)
az F(x,a,b) modellel számított értéket jelöli.
Ez a követelmény a legkisebb négyzetek elve. Gyakorlati alkalmazására a következõ fejezet ad példát.
Az ei hibákról nemcsak azt szokták feltételezni, hogy várható értékük 0, hanem azt is, szórásuk megegyezik. Ez az un. homoszkedasztikus eset. Ha ugyanis a mérési hibák x változó mentén változnak (heteroszkedasztikus eset), a fellépõ nagy eltérések (azok négyzetei) aránytalanul eltorzítják a minimum helyét, ezzel a paraméterek értékét. Ilyen esetben az eltéréseket súlyozni szokás, amivel a minimum követelmény így alakul:
(7.4)
A súly általában az adott x változóértéknél érvényes variancia reciproka:
(7.5)
A súlyozott legkisebb négyzetek módszerére
más esetekben, pl. az y változóra alkalmazott
transzformáció miatt is szükség lehet.
7.1.2 Egyenes paramétereinek becslése (lineáris regresszió)
a) Az egyenes állandói
A lineáris regressziónál az egyenes ismert egyenletének érvényességét tételezzük fel:
(7.6)
A paraméterek becslésére n darab xi, yi értékpárt használunk fel. A becslés gondolatmenetének megfelelõen minimálni kell a mért és számított y értékek eltérése négyzetének összegét :
(7.7)
(az F(x,a,b) modellel számított értéket jelöli. A további összefüggésekben az egyszerûség kedvéért a szummázás jelénél az i indexet elhagyjuk, sõt, ahol nem zavaró, az index a változók mellõl is hiányzik).
Az a és b paraméterek függvényében Q négyzetösszeg nyilvánvalóan ott lesz minimális, ahol Q-nak a és b szerinti parciális deriváltjai 0 értékûek lesznek. Fenn kell tehát állnia, hogy
(7.8)
. (7.9)
A kapott egyenleteket egyszerûsítve, az összegezéseket tagonként végrehajtva és azokat rendezve az
(7.10)
(7.11)
lineáris egyenletrendszer adódik, amelybõl megoldás után a meredekségre a
(7.12)
összefüggés, a tengelymetszetre pedig (7.9) egyenlet n-nel való osztása után az
(7.13)
képlet adódik.
(7.12) képlet könnyen számítható tényezõket tartalmaz. Mind számlálója, mind nevezõje aritmetikai mûveletekkel átalakítható úgy is, hogy a képlet jobban megjegyezhetõ és többet mondó alakú legyen:
(7.14)
A paraméterbecslés ismertetett elve és a (7.10), (7.11).egyenletek többváltozós lineáris összefüggések paramétereinek becslésére is általánosíthatók. Az
(7.15)
lineáris modell paramétereinek becslései n
darab mérésbõl az
m + 1 ismeretlenes
(7.16) |
lineáris egyenletrendszer megoldásával lehet megkapni.
Tartalom | http://www.chemonet.hu/hun/eloado/stat/
http://www.kfki.hu/chemonet/hun/eloado/stat/ |