課程內(nèi)容
《獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用》
對于性別變量,其取值為男和女兩種,這種變量的不同“值”表示個體所屬的不同類別,你這類變量稱為分類變量。在現(xiàn)實(shí)生活中,分類變量是大量存在的,例如是否吸煙,宗教信仰、國籍,等等。
在日常生活中,我們常常關(guān)心兩個分類變量之間量來有關(guān)系,例如,吸煙與肺癌與吸煙是否有關(guān)系?性別對于是否喜歡數(shù)學(xué)課程有影響?等等。
探究:為調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了9965人,得到如下結(jié)果(單位:人)
表1-7吸煙與患肺癌列聯(lián)表
不患肺癌 | 患肺癌 | 總計 | |
不吸煙 | 7775 | 42 | 7817 |
吸煙 | 2099 | 49 | 2148 |
總計 | 9874 | 91 | 9965 |
像表1-7這樣列出的兩個分類變量的頻數(shù)表,稱為列聯(lián)表,由吸煙情況和患肺癌情況的列聯(lián)表可以粗略估計出:在不吸煙者中,有0.54%患有肺癌;在吸煙者中,有2.28%患有肺癌,因此,直觀上可以得出結(jié)論;吸煙者和不吸煙者患肺癌可能存在差異。
與表格相比,三維柱形圖和二維條形圖能更直觀的=地反映出相關(guān)數(shù)據(jù)的總體狀況。



圖1.2-1是列聯(lián)表的三維柱形圖,從中能清晰地看出各個頻數(shù)的相對大小。
作三維柱形圖要注意選擇恰當(dāng)?shù)囊暯?,以使每個柱體都能看到。
圖1.2-2是疊在一起的二維條形圖,其中綠色條高表示不患肺癌的人數(shù),黒色條高表示患肺癌的人數(shù),從圖中可以看出,吸煙者中患肺癌的比例高于不吸煙者中患肺癌的比例。
為了更清晰地表達(dá)這個特征,我們還可以用如下的等高條形圖表示兩個情況下患肺癌的比例,如圖1.2-3所示,在等高條形圖中,綠色的條高表示不患肺癌的百分比;黒色的條高表示患者肺癌的百分比。
上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?或者說我們能夠以多大的把握認(rèn)為“吸煙與患肺癌有關(guān)”呢?
為了回答上述問題我們先假設(shè)
Ho:吸煙與患肺癌沒有關(guān)系
用A來表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒有關(guān)系”等價于“吸煙與患肺癌獨(dú)立”即Ho等價于P=(AB)=P(A)P(B)
把表1-7中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表
不患肺癌 | 患肺癌 | 總計 | |
不吸煙 | a | b | a+b |
吸煙 | c | d | c+d |
總計 | a+c | b+d | a+b+c+d |
為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),基于上面的分析,我們構(gòu)造一個隨機(jī)變量
K2=n(ad-bc)2/(a+b)(c+d)(a+c)(b+d)(1)
其中n=a+b+c+d為樣本容量
若HO成立,即“吸煙與肺癌者沒有關(guān)系”,則K2應(yīng)該很小現(xiàn)在,根據(jù)表1.7中的數(shù)據(jù),利用公式(1)計算得K2的觀測值為
k={9965×(7775×49-42×2099)2}/{7817×2148×9848×91}=56.632
這個值是不是很大呢?
在Ho成立的情況下,統(tǒng)計學(xué)家估算出如下概率P(K2≥6.635)≈ 0.01(2)
即在Ho成立的情況下K2的值大于6.635的概率非常小近似于0.01,也就是說,在Ho成立的情況
正下對隨機(jī)變量K2進(jìn)行多次觀測,觀測值超過6.635的頻率約為1/100。
在(2)中n越大,近似程度越高,在實(shí)際應(yīng)用中,通常要求a,b,c,d都不小于5。
思考 如果K2≥6.635,就斷定HO不成立,這種判定出錯的可能性有多大?
現(xiàn)在觀測值k≈56.632遠(yuǎn)遠(yuǎn)大于6.635,在Ho成立的條件下,由(2)式可知能夠出現(xiàn)這樣的觀測值班的概率不超過0.01,因此,我們有99%的把握認(rèn)為Ho不成立,即有99%的把握認(rèn)為“吸煙與肺癌有關(guān)系”。
上面這種利用隨機(jī)變量K2來確定在多大程度上可以認(rèn)為“兩個分類變量有關(guān)系”的方法稱為兩個分類變量的獨(dú)立性檢驗(yàn)。
獨(dú)立性檢驗(yàn)的基本思想類似于反證法,要確認(rèn)“兩個分類變量有關(guān)系”這一結(jié)論成立的可信程度,首先假設(shè)該結(jié)論不成立,即假設(shè)結(jié)論“兩個分類變量沒有關(guān)系”成立,在該假設(shè)下構(gòu)造的隨機(jī)變量K2應(yīng)該很小,如果由觀測數(shù)據(jù)計算得到K2的觀測值很大,則在一定程度上說明假設(shè)不合理,根據(jù)隨機(jī)變量K2的含義,可以通過概率(2)式評價該假設(shè)不合理的程度,由實(shí)際計算出的k﹥6.635,說明假設(shè)不合理的程度為99%,即“兩個分類變量有關(guān)系”這結(jié)論成立的可信程度約為99%。
思考 利用上面的結(jié)論,你能從列聯(lián)表的三維柱形圖中看出兩個分類變量是否相關(guān)系?
一般地,假設(shè)兩個分類變量X和Y,它們值域分別為{x1,x2}和{y1,y2},其樣本頻數(shù)列聯(lián)表(稱為2×2列聯(lián)表)為:
表1-9 稱為2×2列聯(lián)表
y1 | y2 | 總計 | |
x1 | a | b | a+b |
x2 | c | d | c+d |
總計 | a+c | b+d | a+b+c+d |
若要推斷的結(jié)論為H1:“X與Y有關(guān)系”,可以按如下步驟判斷結(jié)論H1成立的可能性:
1.通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關(guān),但是這種判斷無法精確地結(jié)出所得結(jié)論的可靠程度。
(1)在三維柱形圖中,主要對角線上兩個柱形高度的乘積ad與副對角線上的兩個想得開高度的乘積bc相差越大H1成立的可能性越大。
(2)在二維條形圖中,可以估計滿足條件X =x1的個體中具有Y=y1的個體所占的比例a/(a+b),也可以估計滿足條件X=x2的個體中具體有Y=y1體所占比例c/(c+d)兩個比例的值相差越大,H1成立的可能性越大。
2.可以利用獨(dú)立檢驗(yàn)來考察兩個分類變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度,具體做法是:根據(jù)觀測數(shù)據(jù)計算則(1)式給出的檢驗(yàn)隨機(jī)變量K2的值k,其值越大說明“X與Y有關(guān)系”成立的可能性越大,當(dāng)?shù)玫降挠^測數(shù)據(jù)a,b,c,d都不小于5時,可以通過查閱
下表(1-10)來確定結(jié)論“X與Y有關(guān)系”的可信程度。
例如
(1)如果k﹥10.828,就有99.9%把握認(rèn)為“X與Y有關(guān)系”;
(2)如果k﹥7.879,就有99.5%把握認(rèn)為“X與Y有關(guān)系”;
(3)如果k﹥6.635,就有99%把握認(rèn)為“X與Y有關(guān)系”;
(4)如果k﹥5.024,就有97.5%把握認(rèn)為“X與Y有關(guān)系”;
(5)如果k﹥3.841,就有95%把握認(rèn)為“X與Y有關(guān)系”;
(6)如果k﹥2.706,就有90%把握認(rèn)為“X與Y有關(guān)系”;
如果k≤2.706,就認(rèn)為沒有充分的證據(jù)顯示“X與Y有關(guān)系”。
此內(nèi)容正在抓緊時間編輯中,請耐心等待

孫老師
男,中教高級職稱
在教學(xué)中勤懇敬業(yè),教學(xué)成績優(yōu)異,多次被評為“優(yōu)秀數(shù)學(xué)教師”稱號。