母平均の差の区間推定と検定

母分散が既知の場合

2つの母集団を考えます。それぞれの母平均に差があるかを検定します。

２つの母集団を \(N(\mu_X,\sigma_X^2),~N(\mu_Y,\sigma_Y^2)\) とします。それぞれ無作為標本を抽出します。

\[ X_1,X_2,\cdots,X_{n_X} \sim N(\mu_X,\sigma_X^2) \] \[ Y_1,Y_2,\cdots,Y_{n_Y} \sim N(\mu_Y,\sigma_Y^2) \]

それぞれの標本平均は次のようになります。

\[ \overline{X}=\frac{1}{n_X}\sum_{i=1}^{n_X}X_i, \quad \overline{Y}=\frac{1}{n_Y}\sum_{i=1}^{n_Y}Y_i \]

正規分布の再生成より

\[ \overline{X}-\overline{Y}\sim N\left(\mu_X-\mu_Y,~\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}\right) \]

これを標準化すると

\[ Z=\frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}\sim N(0,1) \]

これが検定統計量となります。

母分散が未知で等しい場合

母分散 \(\sigma_X^2,\sigma_Y^2\) はともに未知で、\(\sigma_X^2=\sigma_Y^2\) と仮定できる場合を考えます。

\[ \sigma^2=\sigma_X^2=\sigma_Y^2 \]

とすると、統計量 \(Z\) は次のようになります。

\[ Z=\frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}=\frac{\overline{X}-\overline{Y}}{\sqrt{\sigma^2}\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}} \]

ここで、\(\sigma\) は未知なので \(\sigma\) の不偏推定量 \(\hat{\sigma}\) で代用したもの

\[ T=\frac{\overline{X}-\overline{Y}}{\sqrt{\hat{\sigma}^2}\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}} \]

を考えます。

次の事実を用います。

\[ \frac{(n_X-1)U_X^2}{\sigma_X^2}\sim\chi^2(n_X-1), \quad \frac{(n_Y-1)U_Y^2}{\sigma_Y^2}\sim\chi^2(n_Y-1) \]

これらの和をとると

\[ \frac{(n_X-1)U_X^2}{\sigma_X^2}+\frac{(n_Y-1)U_Y^2}{\sigma_Y^2}=\frac{(n_X-1)U_X^2+(n_Y-1)U_Y^2}{\sigma^2} \]

カイ二乗分布の性質より

\[ \frac{(n_X-1)U_X^2+(n_Y-1)U_Y^2}{\sigma^2}\sim \chi^2(n_X+n_Y-2) \]

が成り立ちます。

カイ二乗分布に従う確率変数の期待値は自由度であるから

\[ E\left[\frac{(n_A-1)U_A^2+(n_B-1)U_B^2}{\sigma^2}\right]=n_A+n_B-2 \]

よって

\[ E\left[\frac{(n_A-1)U_A^2+(n_B-1)U_B^2}{n_A+n_B-2}\right]=\sigma^2 \]

です。不偏推定量の定義 \(E[\hat{\sigma}^2]=\sigma^2\) から

\[ \hat{\sigma}^2=\frac{(n_A-1)U_A^2+(n_B-1)U_B^2}{n_A+n_B-2} \]

とわかります。したがって

\[ T=\frac{\overline{X}-\overline{Y}}{\sqrt{\frac{(n_X-1)U_X^2+(n_Y-1)U_Y^2}{n_X+n_Y-2}}\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}} \sim t(n_A+n_B-2) \]

母平均の差の区間推定と検定

母分散が既知の場合

母分散が未知で等しい場合

母分散が未知で等しくない場合