適合度の検定

適合度の検定の考え方

適合度の検定は「観測されたデータが、仮定した確率分布に従うといえるか」を調べるための検定です。帰無仮説 \(H_0\) と対立仮説 \(H_1\) は次のように設定します。

\[ \begin{align} H_0 &: \text{データは仮定した分布に従っている}\\ H_1 &: \text{データは仮定した分布に従っていない} \end{align} \]

カテゴリが \(k\) 個あり、仮定した分布の未知パラメータが \(r\) 個あるとき

\[ \chi^2=\sum_{i=1}^k\frac{(O_i-E_i)^2}{E_i}\sim\chi^2(k-r-1) \]

適合度の検定の理論

\(k\) 個のカテゴリ \(A_1,A_2,\cdots,A_k\) があるとき、観測度数と理論確率（仮定した分布での確率）での期待度数をまとめると下表のようになったとします。

カテゴリ	\(A_1\)	\(A_2\)	\(\cdots\)	\(A_k\)	合計
観測度数	\(O_1\)	\(O_2\)	\(\cdots\)	\(O_k\)	\(n\)
期待度数	\(E_1\)	\(E_2\)	\(\cdots\)	\(E_k\)	\(n\)

ここで、期待度数は

\[ E_i=nP(A_i) \quad (i=1,2,\cdots,k) \]

で計算されます。

仮定した確率分布の未知パラメータの個数を \(r\) とすると、\(n\) が十分大きいとき

\[ \chi^2=\sum_{i=1}^k\frac{(O_i-E_i)^2}{E_i}\sim\chi^2(k-r-1) \]

が近似的に成り立ちます。

未知パラメータとは、例えばポアソン分布 \(Po(\lambda)\) を仮定したとき、\(\lambda\) が事前に与えられた場合は \(r=0\) となり、\(\lambda\) の推定が必要な場合は \(r=1\) となります。

ポアソン分布を仮定する適合度の検定

例題

あるコールセンターで、1時間あたりの電話着信件数を100時間観測し、次のデータが得られた。

着信件数	\(0\)	\(1\)	\(2\)	\(3\)	\(4\)	\(5\) 以上	計
観測度数	\(8\)	\(20\)	\(31\)	\(26\)	\(12\)	\(3\)	\(100\)

このデータは推定した平均のポアソン分布に従っているといえるか、有意水準 \(5\%\) で検定せよ。

平均の推定量は標本平均なので、標本平均を求めると

\[ \overline{x}=\frac{0\cdot8+1\cdot20+2\cdot31+3\cdot26+4\cdot12+5\cdot3}{100}=2.23 \]

着信件数を \(X\) として、次のように仮説を定めます。

\[ H_0:X~ はポアソン分布 ~Po(2.23)~ に従う \]

帰無仮説 \(H_0\) が正しいと仮定すると

\[ P(X=k)=\frac{2.23^k}{k!}e^{-2.23} \]

が成り立ちます。これを \(k=1,2,\cdots,5\) においてそれぞれ計算すると

\(k\)	\(0\)	\(1\)	\(2\)	\(3\)	\(4\)	\(5\)
\(P(X=k)\)	\(0.108\)	\(0.240\)	\(0.267\)	\(0.199\)	\(0.111\)	\(0.049\)

期待度数 \(E_k=100\cdot P(X=k)\) を計算して表にまとめると次のようになります。

\(k\)	\(0\)	\(1\)	\(2\)	\(3\)	\(4\)	\(5\)
観測度数	\(8\)	\(20\)	\(31\)	\(26\)	\(12\)	\(3\)
期待度数	\(10.8\)	\(24.0\)	\(26.7\)	\(19.9\)	\(11.1\)	\(4.9\)

カテゴリが6個あり、未知パラメータが1つあるので、自由度は \(6-1-1=4\) となります。

\[ \chi^2=\sum_{i=0}^5\frac{(O_i-E_i)^2}{E_i}\sim\chi^2(4) \]

棄却域 \(R\) は

\[ R=\left[\chi^2_{U(0.05)}(4),\infty\right) = [9.49,\infty) \]

検定統計量の実現値を計算すると

\[ \begin{align} \chi^2_0&=\frac{(8-10.8)^2}{10.8}+\frac{(20-24.0)^2}{24.0}+\frac{(31-26.7)^2}{26.7}+\frac{(26-19.9)^2}{19.9}+\frac{(12-11.1)^2}{11.1}+\frac{(3-4.9)^2}{4.9} \\ &=\frac{7.84}{10.8}+\frac{16}{24.0}+\frac{18.49}{26.7}+\frac{37.21}{19.9}+\frac{0.81}{11.1}+\frac{3.61}{4.9} \\ &=0.726+0.667+0.693+1.870+0.073+0.737 \\ &=4.766 \end{align} \]

よって \(\chi^2_0\notin R\) であるので、\(H_0\) は棄却されません。したがって、\(X\) は推定した平均のポアソン分布に従わないとはいえません。

演習問題

問題

解答