適合度の検定
適合度の検定の考え方
適合度の検定は「観測されたデータが、仮定した確率分布に従うといえるか」を調べるための検定です。 帰無仮説 \(H_0\) と対立仮説 \(H_1\) は次のように設定します。
カテゴリが \(k\) 個あり、仮定した分布の未知パラメータが \(r\) 個あるとき
適合度の検定の理論
\(k\) 個のカテゴリ \(A_1,A_2,\cdots,A_k\) があるとき、観測度数と理論確率(仮定した分布での確率)での期待度数をまとめると下表のようになったとします。
| カテゴリ | \(A_1\) | \(A_2\) | \(\cdots\) | \(A_k\) | 合計 |
|---|---|---|---|---|---|
| 観測度数 | \(O_1\) | \(O_2\) | \(\cdots\) | \(O_k\) | \(n\) |
| 期待度数 | \(E_1\) | \(E_2\) | \(\cdots\) | \(E_k\) | \(n\) |
ここで、期待度数は
で計算されます。
仮定した確率分布の未知パラメータの個数を \(r\) とすると、\(n\) が十分大きいとき
が近似的に成り立ちます。
未知パラメータとは、例えばポアソン分布 \(Po(\lambda)\) を仮定したとき、\(\lambda\) が事前に与えられた場合は \(r=0\) となり、\(\lambda\) の推定が必要な場合は \(r=1\) となります。
ポアソン分布を仮定する適合度の検定
あるコールセンターで、1時間あたりの電話着信件数を100時間観測し、次のデータが得られた。
| 着信件数 | \(0\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) 以上 | 計 |
|---|---|---|---|---|---|---|---|
| 観測度数 | \(8\) | \(20\) | \(31\) | \(26\) | \(12\) | \(3\) | \(100\) |
このデータは推定した平均のポアソン分布に従っているといえるか、有意水準 \(5\%\) で検定せよ。
平均の推定量は標本平均なので、標本平均を求めると
着信件数を \(X\) として、次のように仮説を定めます。
帰無仮説 \(H_0\) が正しいと仮定すると
が成り立ちます。 これを \(k=1,2,\cdots,5\) においてそれぞれ計算すると
| \(k\) | \(0\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
|---|---|---|---|---|---|---|
| \(P(X=k)\) | \(0.108\) | \(0.240\) | \(0.267\) | \(0.199\) | \(0.111\) | \(0.049\) |
期待度数 \(E_k=100\cdot P(X=k)\) を計算して表にまとめると次のようになります。
| \(k\) | \(0\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
|---|---|---|---|---|---|---|
| 観測度数 | \(8\) | \(20\) | \(31\) | \(26\) | \(12\) | \(3\) |
| 期待度数 | \(10.8\) | \(24.0\) | \(26.7\) | \(19.9\) | \(11.1\) | \(4.9\) |
カテゴリが6個あり、未知パラメータが1つあるので、自由度は \(6-1-1=4\) となります。
棄却域 \(R\) は
検定統計量の実現値を計算すると
よって \(\chi^2_0\notin R\) であるので、\(H_0\) は棄却されません。 したがって、\(X\) は推定した平均のポアソン分布に従わないとはいえません。