独立性の検定
独立性の検定とは
2つのカテゴリ変数の間に関係があるかどうかを調べる検定を独立性の検定といいます。
例えば、「コーヒー派」と「紅茶派」という好みが、性別に関係しているのかを調べたいとします。 そこで、男性と女性それぞれ50人にアンケートを取ったところ、次のデータが得られました。
| コーヒー派 | 紅茶派 | 合計 | |
|---|---|---|---|
| 男性 | \(30\) | \(20\) | \(50\) |
| 女性 | \(10\) | \(40\) | \(50\) |
| 合計 | \(40\) | \(60\) | \(100\) |
この結果を見ると、男性はコーヒー派が多く、女性は紅茶派が多いように思えます。 では、「性別」と「飲み物の好み」は本当に関係していると言えるのでしょうか。 それとも、たまたまこのような結果になっただけでしょうか。 これを統計的に判断するのに使われるのが独立性の検定です。
独立性の検定の理論
ここでは、2つのカテゴリ変数の独立性を検定する理論を一般的な形で説明します。
\(A_i\) かつ \(B_j\) である観測度数を \(O_{ij}\) とし、次のデータが得られたとします。
| \(B_1\) | \(B_2\) | \(\cdots\) | \(B_m\) | 合計 | |
|---|---|---|---|---|---|
| \(A_1\) | \(O_{11}\) | \(O_{12}\) | \(\cdots\) | \(O_{1m}\) | \(X_{1\cdot}\) |
| \(A_2\) | \(O_{21}\) | \(O_{22}\) | \(\cdots\) | \(O_{2m}\) | \(X_{2\cdot}\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) |
| \(A_l\) | \(O_{l1}\) | \(O_{l2}\) | \(\cdots\) | \(O_{lm}\) | \(X_{l\cdot}\) |
| 合計 | \(X_{\cdot 1}\) | \(X_{\cdot 2}\) | \(\cdots\) | \(X_{\cdot m}\) | \(n\) |
独立性の検定では、次のように仮説を立てます。
\(H_0\) が正しいと仮定します。 つまり、\(A_i,B_j\) は確率的に独立であり
が成り立つとします。 このとき、各セルの期待度数は
で計算されます。 しかし、期待度数は未知なので推定量で代用します。 \(P(A_i),P(B_j)\) の推定量をそれぞれ \(\hat{P}(A_i),\hat{P}(B_j)\) とすると
です。 よって、期待度数 \(E_{ij}\) の推定量 \(\hat{E}_{ij}\) は
となります。
観測値 \( O_{ij} \) と期待度数 \( E_{ij} \) の差がどれくらい大きいかを測るために、カイ二乗統計量を計算します。 \(n\) が十分大きいとき(各セルの期待度数 \(\hat{E}_{ij}\) が5以上のとき)、近似的に
が成り立ちます。
独立であるときは観測度数 \(O_{ij}\) と期待度数 \(E_{ij}\) の差は小さくなり、\(\chi^2\) の値は小さくなります。 つまり、\(\chi^2\) が大きいほど観測度数 \(O_{ij}\) と期待度数 \(E_{ij}\) のずれが大きいことを意味するため、右側(大きい値の領域)を棄却域とする右側検定を行います。
カイ二乗分布 \(\chi^2((l-1)(m-1))\) の上側 \(100\alpha\%\) 点を \(\chi^2_{U(\alpha)}((l-1)(m-1))\) とすると、棄却域 \(R\) は次のようになります。
検定統計量 \(\chi^2\) の実現値が棄却域 \(R\) に入れば、\(H_0\) を棄却して「2つの変数は独立でない(関係がある)」と結論づけます。
例題
「コーヒー派」と「紅茶派」という好みが、性別に関係しているのかを調べたい。 そこで、男性と女性それぞれ50人にアンケートを取ったところ、次のデータが得られた。
| コーヒー派 | 紅茶派 | 合計 | |
|---|---|---|---|
| 男性 | \(30\) | \(20\) | \(50\) |
| 女性 | \(10\) | \(40\) | \(50\) |
| 合計 | \(40\) | \(60\) | \(100\) |
この結果から、「性別」と「飲み物の好み」は関係しているといえるだろうか。 有意水準 \(5\%\) で検定せよ。
仮説を次のように定めます。
\(H_0\) が正しいとすると、各セルの期待度数の推定量 \(\hat{E}_{ij}\) は次の表のようになります。
| コーヒー派 | 紅茶派 | 合計 | |
|---|---|---|---|
| 男性 | \(\displaystyle\frac{50\cdot40}{100}=20\) | \(\displaystyle\frac{50\cdot60}{100}=30\) | \(50\) |
| 女性 | \(\displaystyle\frac{50\cdot40}{100}=20\) | \(\displaystyle\frac{50\cdot60}{100}=30\) | \(50\) |
| 合計 | \(40\) | \(60\) | \(100\) |
自由度は \((2-1)(2-1)=1\) となります。
棄却域 \(R\) は
検定統計量 \(\chi^2\) の実現値 \(\chi^2_0\) は
よって \(\chi^2_0\in R\) なので、\(H_0\) は棄却されます。 したがって、性別と飲み物の好みは関係しているといえます。