A matematikai statisztika elemei


6. Variancia analízis

Több minta szórásnégyzetének (varianciájának) összehasonlításán alapul a statisztika egyik nagy fejezete, a variancia analízis. A vizsgálatok célja ennek alkalmazásakor ugyanaz, mint a két mintára kiterjedõ statisztikai próbáké volt: sokaságok egyezésének vagy eltérésének valószínûsítése. Meg kell jegyezni, hogy amikor a mintaszórások eltérés-valószínûségét F próbával határozzuk meg, a mintaelemek legyenek függetlenek és normális eloszlásúak.

A módszer lényegét számos variancia analitikus eljárás közül a legegyszerûbbön, az "egytényezõs" variancia elemzésen mutatjuk be.

Több sokasággal foglalkozunk, amelyekrõl feltesszük, hogy N(m i,s2) eloszlásúak, aholm i az i-edik sokaság várható értéke,s2 pedig a sokaságok megegyezõ varianciája. Kérdésünk az, a minták elkerülhetetlen eltérése véletlen-e, avagy érvényesült valami olyan hatás, aminek alapján a sokaságok nem tekinthetõk megegyezõnek.

Szabatosan a

H0 : m I = m                 i = 1,2, …m                     (6.1)

nullahipotézis elfogadásáról vagy elvetésérõl van szó. Vegyük észre, hogy különös módon most szórások összehasonlításával középértékek eltérésérõl ítélkezünk.

Az eljárást példán mutatjuk be. Tegyük fel, abban kívánunk dönteni, hogy három, L1, L2 és L3 laboratórium egyenlõ megbízhatóan dolgozik-e, avagy a laboratóriumokból érkezõ eredményeket fenntartással kell fogadni. A vizsgálathoz a három laboratórium 1,5 tömeg% ként tartalmazó gázolajat kap, amelyet ugyanazzal a (megegyezõ szórású) szabványos módszerrel kell megvizsgálnia. L1 labor n1 = 3 párhuzamos mérést végez, L2 labor n2 = 5-öt, L3 n3 =4-et. A beküldött eredményeket a 6.1 táblázatban bemutatott elrendezésû táblázatba foglaljuk. Itt xij jelenti a j-edik laboratórium i-edik mérési értékét. (A számszerû értékek a 6.3 táblázatban találhatók).

6.1 táblázat. A variancia analízis alapadatai

 
j = 1
j = 2
j = 3
Sorösszegek

/átlagok

i = 1
x11
x12
x13
 
i = 2
x21
x22
x23
 
i = 3
x31
x32
x33
 
i = 4
 
x42
x43
 
i = 5
 
x52
   
Oszlopösszeg
Elemszám
n1
n2
n3
Szab.fok
n1 -1
n2 -1
n3 -1
n -3
Átlag
Eltérésnégyzet-összeg
Variancia
Átlag csoportok között
Eltérésnégyzet-összeg csoportok között
Variancia csoportok között

A táblázatban látható két variancia, az MSintra és MSinter érték közül az elsõ a kénmeghatározó módszer szórását, véletlen hibáját becsli. A második a laborok középértékeinek eltérését tükrözi azok közös középértékétõl. Belátható, hogy ha a középértékek egymástól jobban eltérnek, mint amennyit a módszer szórása megenged, akkor a laboratóriumok között szignifikáns eltérés van. A döntés az MSintra és MSinter varianciák F próbáján alapul. Ha a kapott F nagyobb, mint a kritikus F(a ,n1,n 2) érték, akkor a (6.1) nullahipotézist elvetjük.

A variancia analízisnek ezeket a lépéseit a 6.2 táblázat mutatja.

6.2 táblázat. A variancia analízis erdményei

 
SS
Szab.fok
MS
p
Csoportokon

belül

SSintra
n intra
MSintra
   
Csoportok

között

SSinter
n inter
MSinter
--
--
Összesen
SStotal
n total
--
--
--

A táblázat legalsó sorában az

SSintra + SSinter = SStotal                          (6.2)

egyenlõségnek kell (matematikai okokból) teljesülnie. Ez hasznos ellenõrzési lehetõség. Ugyanez áll a szabadsági fokokra is. A táblázatban szereplõ p érték azt adja meg, hogy a kapott  hányadosnál nagyobb értékek mely valószínûséggel fordulnak elõ. A statisztikus döntést nyilván ennek alapján is meg lehet hozni. A variancia analízis algoritmusai azonban legtöbbször kérik az a tévedési valószínûséget és megadják F kritikus értékét.

A bevezetésben bemutatott példa számszerû eredményeit a 6.3 táblázat mutatja be.

6.3 táblázat. Egytényezõs variancia analízis

 
L1
L2
L3
sorösszeg
Sorátlag
x1.
1,5
1,6
1,3
   
x2.
1,55
1,72
1,3
   
x3.
1,47
1,4
1,4
   
x4.  
1,48
1,45
   
x5.  
1,55
     
           
xij összegek
4,52
7,75
5,45
17,72
 
Mérésszámok
3
5
4
12
 
Szab.fokok
2
4
3
9
 
Átlagok
1,506666667
1,55
1,3625
 
1,476666
Eltérésnégyzet-összeg
0,0032666
0,0588
0,016875
0,0789416
 
Varianciák
0,0016333
0,0147
0,005625
 
0,008771
           
VARIANCIA ANALÍZIS          
Tényezõk
SS
df
MS
p-érték
Csoportok között
0,081725
2
0,0408625
4,658661459
0,040851902
Csoporton belül
0,078941667
9
0,008771296
   
Összesen
0,160666667
11
     

A kritikus F érték 5% tévedést megengedve, egyoldalas kérdésfeltevésnél 4.256 lenne. Ennél a kapott F érték nagyobb, így a nullahipotézist, miszerint a laboratóriumok egyformán dolgoznak elvetjük. p értékbõl látjuk, hogy a döntés nem módfelett biztos, hiszen, ha "igazságosabbak" akarunk lenni, és csak 3% tévedést vállalnánk, a laboratoriumokat már nem tartanók különbözõnek.
 


Tartalom http://www.chemonet.hu/hun/eloado/stat/
http://www.kfki.hu/chemonet/hun/eloado/stat/