適合度の検定

適合度の検定の考え方

適合度の検定は「観測されたデータが、仮定した確率分布に従うといえるか」を調べるための検定です。 帰無仮説 \(H_0\) と対立仮説 \(H_1\) は次のように設定します。

\[ \begin{align} H_0 &: \text{データは仮定した分布に従っている}\\ H_1 &: \text{データは仮定した分布に従っていない} \end{align} \]

カテゴリが \(k\) 個あり、仮定した分布の未知パラメータが \(r\) 個あるとき

\[ \chi^2=\sum_{i=1}^k\frac{(O_i-E_i)^2}{E_i}\sim\chi^2(k-r-1) \]

適合度の検定の理論

\(k\) 個のカテゴリ \(A_1,A_2,\cdots,A_k\) があるとき、観測度数と理論確率(仮定した分布での確率)での期待度数をまとめると下表のようになったとします。

カテゴリ\(A_1\)\(A_2\)\(\cdots\)\(A_k\)合計
観測度数\(O_1\)\(O_2\)\(\cdots\)\(O_k\)\(n\)
期待度数\(E_1\)\(E_2\)\(\cdots\)\(E_k\)\(n\)

ここで、期待度数は

\[ E_i=nP(A_i) \quad (i=1,2,\cdots,k) \]

で計算されます。

仮定した確率分布の未知パラメータの個数を \(r\) とすると、\(n\) が十分大きいとき

\[ \chi^2=\sum_{i=1}^k\frac{(O_i-E_i)^2}{E_i}\sim\chi^2(k-r-1) \]

が近似的に成り立ちます。

未知パラメータとは、例えばポアソン分布 \(Po(\lambda)\) を仮定したとき、\(\lambda\) が事前に与えられた場合は \(r=0\) となり、\(\lambda\) の推定が必要な場合は \(r=1\) となります。

ポアソン分布を仮定する適合度の検定

例題

あるコールセンターで、1時間あたりの電話着信件数を100時間観測し、次のデータが得られた。

着信件数\(0\)\(1\)\(2\)\(3\)\(4\)\(5\) 以上
観測度数\(8\)\(20\)\(31\)\(26\)\(12\)\(3\)\(100\)

このデータは推定した平均のポアソン分布に従っているといえるか、有意水準 \(5\%\) で検定せよ。

平均の推定量は標本平均なので、標本平均を求めると

\[ \overline{x}=\frac{0\cdot8+1\cdot20+2\cdot31+3\cdot26+4\cdot12+5\cdot3}{100}=2.23 \]

着信件数を \(X\) として、次のように仮説を定めます。

\[ H_0:X~ はポアソン分布 ~Po(2.23)~ に従う \]

帰無仮説 \(H_0\) が正しいと仮定すると

\[ P(X=k)=\frac{2.23^k}{k!}e^{-2.23} \]

が成り立ちます。 これを \(k=1,2,\cdots,5\) においてそれぞれ計算すると

\(k\)\(0\)\(1\)\(2\)\(3\)\(4\)\(5\)
\(P(X=k)\)\(0.108\)\(0.240\)\(0.267\)\(0.199\)\(0.111\)\(0.049\)

期待度数 \(E_k=100\cdot P(X=k)\) を計算して表にまとめると次のようになります。

\(k\)\(0\)\(1\)\(2\)\(3\)\(4\)\(5\)
観測度数\(8\)\(20\)\(31\)\(26\)\(12\)\(3\)
期待度数\(10.8\)\(24.0\)\(26.7\)\(19.9\)\(11.1\)\(4.9\)

カテゴリが6個あり、未知パラメータが1つあるので、自由度は \(6-1-1=4\) となります。

\[ \chi^2=\sum_{i=0}^5\frac{(O_i-E_i)^2}{E_i}\sim\chi^2(4) \]

棄却域 \(R\) は

\[ R=\left[\chi^2_{U(0.05)}(4),\infty\right) = [9.49,\infty) \]

検定統計量の実現値を計算すると

\[ \begin{align} \chi^2_0&=\frac{(8-10.8)^2}{10.8}+\frac{(20-24.0)^2}{24.0}+\frac{(31-26.7)^2}{26.7}+\frac{(26-19.9)^2}{19.9}+\frac{(12-11.1)^2}{11.1}+\frac{(3-4.9)^2}{4.9} \\ &=\frac{7.84}{10.8}+\frac{16}{24.0}+\frac{18.49}{26.7}+\frac{37.21}{19.9}+\frac{0.81}{11.1}+\frac{3.61}{4.9} \\ &=0.726+0.667+0.693+1.870+0.073+0.737 \\ &=4.766 \end{align} \]

よって \(\chi^2_0\notin R\) であるので、\(H_0\) は棄却されません。 したがって、\(X\) は推定した平均のポアソン分布に従わないとはいえません。

演習問題

問題
解答