分散分析

分散分析の目的

因子 \(A\) の水準	観測値
\(A_1\)	\(x_{11},~x_{12},~\cdots,~x_{1n_1}\)
\(A_2\)	\(x_{21},~x_{22},~\cdots,~x_{2n_2}\)
\(\vdots\)	\(\vdots\)
\(A_k\)	\(x_{k1},~x_{k2},~\cdots,~x_{kn_k}\)

因子 \(A\) の水準	標本	標本平均
\(A_1\)	\(X_{11},~X_{12},~\cdots,~X_{1n_1}\)	\(\displaystyle\sum_{j=1}^{n_1}X_{1j}\)
\(A_2\)	\(X_{21},~X_{22},~\cdots,~X_{2n_2}\)	\(\displaystyle\sum_{j=1}^{n_2}X_{2j}\)
\(\vdots\)	\(\vdots\)	\(\cdots\)
\(A_k\)	\(X_{k1},~X_{k2},~\cdots,~X_{kn_k}\)	\(\displaystyle\sum_{j=1}^{n_k}X_{kj}\)

分散分析のモデル

１元配置分散分析において、水準 \(A_j\) の \(i\) 番目のデータは次のモデルで表されます。

\[ X_{ji}=\mu+\alpha_j+\varepsilon_{ji} \]

\(\mu\) は一般平均、\(\alpha_j\) は水準 \(A_j\) の効果を表します。 \(\varepsilon_{ji}\) は互いに独立で \(N(0,\sigma^2)\) に従う確率変数です。

分散分析では、「水準間に差があるかどうか」を検定します。すなわち、効果が \(0\) でない水準があるかを調べます。仮説は次のようになります。

\[ \begin{align} H_0&:\alpha_1=\alpha_2=\cdots=\alpha_k=0\\ H_1&:\alpha_1,\alpha_2,\cdots,\alpha_k~\text{のいずれかは}~0~\text{ではない} \end{align} \]

効果の推定

効果 \(\alpha_j~(j=1,2,\cdots,k)\) を推定します。

\[ \hat{X}_{ij}=\hat{\mu}+\hat{\alpha}_i \]

\[ L=\sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\hat{X}_{ij})^2=\sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\hat{\mu}-\hat{\alpha}_i)^2 \]

これを最小化する \(\hat{\mu},\hat{\alpha}_i~(i=1,2,\cdots,k)\) を求めます。

\(L\) を \(\hat{\mu}\) で偏微分すると

\[ \frac{\partial L}{\partial\hat{\mu}}=-2\sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\hat{\mu}-\hat{\alpha}_i) \]

\[ \begin{align} &\frac{\partial L}{\partial\hat{\mu}}=0\\ &\Longleftrightarrow \sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\hat{\mu}-\hat{\alpha}_i)=0\\ &\Longleftrightarrow \sum_{i=1}^k\sum_{j=1}^{n_i}X_{ij}-\sum_{i=1}^k\sum_{j=1}^{n_i}\hat{\mu}-\sum_{i=1}^k\sum_{j=1}^{n_i}\hat{\alpha}_i=0\\ &\Longleftrightarrow N\overline{X}_{\cdot\cdot}-N\hat{\mu}-\sum_{i=1}^kn_i\hat{\alpha}_i=0 \end{align} \]

ここで、制約条件 \(\displaystyle\sum_{i=1}^kn_i\hat{\alpha}_i=0\) より

\[ N\overline{X}_{\cdot\cdot}-N\hat{\mu}=0 \]

よって

\[ \hat{\mu}=\overline{X}_{\cdot\cdot} \]

また、\(L\) を \(\hat{\alpha}_i\) で偏微分すると

\[ \frac{\partial L}{\partial\hat{\alpha}_i}=-2\sum_{j=1}^{n_i}(X_{ij}-\hat{\mu}-\hat{\alpha}_i) \]

\[ \begin{align} &\frac{\partial L}{\partial\hat{\alpha}_i}=0\\ &\Longleftrightarrow \sum_{j=1}^{n_i}(X_{ij}-\hat{\mu}-\hat{\alpha}_i)=0\\ &\Longleftrightarrow \sum_{j=1}^{n_i}X_{ij}-\sum_{j=1}^{n_i}\hat{\mu}-\sum_{j=1}^{n_i}\hat{\alpha}_i=0\\ &\Longleftrightarrow n_i\overline{X}_{i\cdot}-n_i\hat{\mu}-n_i\hat{\alpha}_i=0\\ &\Longleftrightarrow \overline{X}_{i\cdot}-\hat{\mu}-\hat{\alpha}_i=0\\ &\Longleftrightarrow \hat{\alpha}_i=\overline{X}_{i\cdot}-\hat{\mu} \end{align} \]

よって

\[ \hat{\alpha}_i=\overline{X}_{i\cdot}-\overline{X}_{\cdot\cdot} \]

検定統計量の作成

前項で求めた \(\hat{\alpha}_i\) をそのまま検定統計量にしたいところですが、単純に「 \(\hat{\alpha}_i\) が 0 から遠いかどうか」を個別に見ても、それぞれがバラつき（誤差）を含んでいるので、全体的に有意な差があるかは判断できません。そこで、平方和をとって「全体としてどのくらい差があるか」を見ます。

\[ \sum_{i=1}^k\sum_{j=1}^{n_i}(\hat{\alpha}_i)^2 =\sum_{i=1}^kn_i(\hat{\alpha}_i)^2 =\sum_{i=1}^kn_i(\overline{X}_{i\cdot}-\overline{X}_{\cdot\cdot})^2 \]

これを水準間平方和（群間平方和）といい

\[ S_A=\sum_{i=1}^kn_i(\overline{X}_{i\cdot}-\overline{X}_{\cdot\cdot})^2 \]

と表します。

また、誤差の平方和は \(\hat{\mu}=\overline{X}_{\cdot\cdot},~\hat{\alpha}_i=\overline{X}_{i\cdot}-\overline{X}_{\cdot\cdot}\) を \(L\) に代入して

\[ L=\sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\hat{\mu}-\hat{\alpha}_i)^2 =\sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\overline{X}_{i\cdot})^2 \]

これを残差平方和（群内平方和）といい

\[ S_e=\sum_{i=1}^k\sum_{j=1}^{n_i}(X_{ij}-\overline{X}_{i\cdot})^2 \]

と表します。

演習問題

問題

解答