计数型资料分析—卡方适合度检定

2020-08-05 浏览(2766) 评论(22) 当前位置:主页 > U生活权 >计数型资料分析—卡方适合度检定

一、前言

一般经由试验所获得的资料型态可分为数种,其中较常见的为连续型资料及计数型资料。连续型资料代表资料的量是可被测量的,数值也不受整数的限制。像是病患的身高、土壤中的重金属含量……等,均可用连续型资料来呈现。

计数型资料则多以次数的多寡来呈现,例如在淹水处理下,所观测到的种子发芽次数。连续型资料分析的方包括 T-test、回归分析等。而卡方检定则是处理计数型资料的统计方法中较为常见的,常见的检定依据不同的用途分为 4 种,包括适合度检定 (test of goodness of fit)、独立性检定 (test of independent)、同质性检定 (test of homogeneity)、McNemar 检定 (McNemar’s test) 等,本篇主要介绍卡方适合度检定,其余检定将在其他章节介绍。

卡方适合度检定

在统计的应用里,我们可以藉由卡方适合度检定来检定某组样本是否服从某个理论分布。适合度意即观测到的次数和服从某个理论分布下所期望发生的次数之间的配适程度。该检定所得的检定统计量大小会反映观测次数和期望次数之间的差距,若两者差距不大,则统计量小;若两者差距很大,则统计量大。我们便可以用检定统计量来判断观测值的资料是否符合某个我们期望他符合的理论分布。

以下用例子来做介绍:

某 M 品牌的巧克力外层的颜色分布 \(30\%\) 为棕色、\(20\%\) 为粉红色、\(10\%\) 为黄色、\(10\%\) 为橘色、\(20\%\) 为绿色、\(10\%\) 为咖啡色。今有 \(600\) 颗巧克力(即样本数为 \(600\)),其外层颜色分布的数量依序为 \(95, 105, 100, 102, 96, 102\)。欲检定该样本的巧克力外层颜色分布是否服从 M 品牌的巧克力外层颜色分布 (理论分布)。首先,我们先假设巧克力外层颜色分布一致,假设检定如下:

\(\mathrm{H_0}:\) 该样本巧克力外层颜色分布与 M 品牌一致

\(\mathrm{H_a}:\) 该样本巧克力外层颜色分布与 M 品牌不一致

那幺在 \(\mathrm{H_0}\) 假设成立下,巧克力各颜色分布的期望次数如表一:

观测次数期望次数棕色\(O_1=95\)\(E_1=600\times 0.3=180\)粉红色\(O_2=105\)\(E_2=600\times 0.2=120\)黄色\(O_3=100\)\(E_3=600\times 0.1=60\)橘色\(O_4=102\)\(E_4=600\times 0.1=60\)绿色\(O_5=96\)\(E_5=600\times 0.2=120\)咖啡色\(O_6=102\)\(E_6=600\times 0.1=60\)总和\(N = 600\)\(N = 600\)

表一、样本巧克力外层颜色分布的观测次数与期望次数

假设今有 \(k\) 组资料(以上述例子来说, \(k = 6\)),假设第 \(i\) 组资料的实测次数为 \(O_i\),期望次数为 \(E_i\),Pearson 提出每组以实测次数减去期望次数的平方除以期望次数相加后得到检定统计量如下:

\(\displaystyle \chi^2=\sum^k_{i=1}\frac{(O_i-E_i)^2}{E_i}\)

该检定统计量可经由证明服从一自由度为 \(k-1\) 的卡方分布注一。自由度减 \(1\) 是因为在计算检定统计量时有一个限制条件:观察值的个数总和是固定的,所以能自由变动的项数只有 \(k-1\) 个。

上述之例子检定统计量计算如下:

\(\begin{array}{cl}
\chi^2 &=\displaystyle\sum^6_{i=1}\frac{(O_i-E_i)^2}{E_i}\\
&=\displaystyle\frac{(95-180)^2}{180}+\frac{(105-120)^2}{120}+\frac{(100-60)^2}{60}+\frac{(102-60)^2}{60}+\frac{(96-120)^2}{120}+\frac{(102-60)^2}{60}\\
&=132.28056\end{array}\)

该检定统计量的自由度为:\(k-1 = 6 -1 = 5\),在 \(\alpha = 0.05\) 的情况下,临界值为 \(\chi^2_{0.95(6)}= 12.59159\) 注一。

该检定的弃却区为:\(\mathrm{R.R.} :\{ \chi^2:\chi^2 \ge\chi^2_{0.95(6)}= 12.59 \}\)

以图表示为:

计数型资料分析—卡方适合度检定

图一、自由度 \(= 5\) 的卡方分布在 \(\alpha = 0.05\) 下的弃却区与非弃却区。(绘图者:赖薇云)

该检定统计量经计算为 \(132.28056\),大于临界值 \(12.59159\) 落入弃却区,该样本巧克力外层颜色分布与 M 品牌不一致。

此外,也可以运用该检定来检定子代的表现型是否服从高中课本中提到的孟德尔遗传分离率。例如有一生物学实验室想要检定一玉米杂交子代 F2 的种子的 \(4\) 种表型「平滑且为黄色」、「皱褶且为黄色」、「平滑且为紫色」与「皱褶且为紫色」的分离比是否为 \(9:3:3:1\)。而实验室观测到的结果玉米子代种子表型的次数依序为 \(124\)、\(30\)、\(43\)、\(11\)。其假说检定如下:

\(\mathrm{H_0}:\) 实测个体分离比符合假设比例

\(\mathrm{H_a}:\) 实测个体分离比不符合假设比例

由理论分离比 \(9:3:3:1\) 求得 \(4\) 种表型的期望值如表二:

观测次数期望次数平滑且为黄色\(O_1=124\)\(E_1=208\times\frac{9}{16}=117\)皱折且为黄色\(O_2=30\)\(E_2=208\times\frac{3}{16}=39\)平滑且为紫色\(O_3=43\)\(E_3=208\times\frac{3}{16}=39\)皱折且为紫色\(O_4=11\)\(E_4=208\times\frac{1}{16}=13\)总和\(N = 208\)\(N = 208\)

表二、子代种子性状的观测次数与期望次数

卡方值计算如下:

\(\displaystyle \chi^2=\sum^6_{i=1}\frac{(O_i-E_i)^2}{E_i}=\frac{(124-117)^2}{117}+\frac{(30-39)^2}{39}+\frac{(43-39)^2}{39}+\frac{(11-13)^2}{13}=3.213\)

该检定统计量的自由度为:\(k-1 = 4 -1 = 3\),在 \(\alpha = 0.05\) 的情况下,临界值为 \(\chi^2_{0.95(3)}= 7.81\),

该检定的弃却域为:\(\mathrm{R.R.} :\{ \chi^2:\chi^2 \ge\chi^2_{0.95(3)}= 3.213\}\)

实测卡方值 \(3.213\) 较临界值小,故可接受 \(\mathrm{H_0}\) 的假设。

此外,当自由度为 \(1\) 或各组的期望细格小于 \(5\) 时,须做叶式连续性校正得修正后的检定统计量如下:

\(\displaystyle \chi^2=\sum^k_{i=1}\frac{(|O_i-E_i|-0.5)^2}{E_i}\)

此外,有时当资料内有一组的期望细格小于 \(5\) 时,最好可以利用合併资料的方式再进行分析。

注一、卡方分布、卡方次数分布表与查表方法请详见《卡方分布以及单一族群变方相等性检定》。


参考文献