母平均の区間推定・検定

母平均の検定統計量（母分散が既知）

母平均の区間推定と検定を行うための統計量を作成します。

正規母集団 \(N(\mu,\sigma^2)\) から \(n\) 個の無作為標本

\[ X_1,X_2,\cdots,X_{n}\sim N(\mu,\sigma^2) \]

を抽出します。母平均 \(\mu\) からのずれを調べるには、母平均の不偏推定量である標本平均

\[ \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i \]

を用いるのが自然です。このとき

\[ \overline{X}\sim N\left(\mu,~\frac{\sigma^2}{n}\right) \]

となります。標準正規分布表を用いるために、\(\overline{X}\) を標準化して

\[ Z=\frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\sim N(0,1) \]

という統計量を得ます。この \(Z\) により、母分散が既知の場合の母平均の区間推定と検定が行えます。

母平均の検定統計量（母分散が未知）

母分散 \(\sigma^2\) がわからない場合を考えます。このとき

\[ Z=\frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\sim N(0,1) \]

は、未知の \(\sigma^2\) を含んでいるため、\(Z\) の実現値が計算できません。そこで、母分散 \(\sigma^2\) の不偏推定量である不偏分散 \(U^2\) で代用した新しい統計量

\[ T=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} \]

を考えます。この \(T\) が従う分布を調べます。不偏分散に関して次のことが成り立ちます。

\[ \frac{(n-1)U^2}{\sigma^2}\sim\chi^2(n-1) \]

また、\(Z\sim N(0,1),~W\sim\chi^2(n)\) であるとき

\[ \frac{Z}{\sqrt{\frac{W}{n}}}\sim t(n) \]

となります。これらをもとに \(T\) を変形すると

\[ T=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} =\frac{\frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}}{\frac{\sqrt{\frac{U^2}{n}}}{\sqrt{\frac{\sigma^2}{n}}}} =\frac{Z}{\sqrt{\frac{U^2}{\sigma^2}}} =\frac{Z}{\sqrt{\frac{\frac{(n-1)U^2}{\sigma^2}}{n-1}}} \]

よって

\[ T=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}}\sim t(n-1) \]

が成り立ちます。この \(T\) により、母分散が未知の場合の母平均の区間推定と検定が行えます。

母平均の区間推定の例題

例題

母分散が既知の場合の母平均の区間推定を行うので、次の統計量を用います。

\[ Z=\frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\sim N(0,1) \]

\(N(0,1)\) の上側 \(100\alpha\) %点を \(z_{U(\alpha)}\) 、下側 \(100\alpha\) %点を \(z_{L(\alpha)}\) とするとき

\[ P\left(z_{L\left(\frac{\alpha}{2}\right)}\le Z\le z_{U\left(\frac{\alpha}{2}\right)}\right)=1-\alpha \]

が成り立ちます。つまり

\[ P\left(z_{L\left(\frac{\alpha}{2}\right)}\le \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\le z_{U\left(\frac{\alpha}{2}\right)}\right)=1-\alpha \]

不等式を \(\mu\) について整理すると

\[ P\left(\overline{X}-z_{U\left(\frac{\alpha}{2}\right)}\cdot\frac{\sigma}{\sqrt{n}}\le\mu\le\overline{X}-z_{L\left(\frac{\alpha}{2}\right)}\cdot\frac{\sigma}{\sqrt{n}}\right)=1-\alpha \]

したがって、母平均 \(\mu\) の \(100(1-\alpha)\) ％信頼区間は、\(\overline{X}\) の実現値を \(\overline{x}\) とすると

\[ \left[\overline{x}-z_{U\left(\frac{\alpha}{2}\right)}\cdot\frac{\sigma}{\sqrt{n}},~\overline{x}-z_{L\left(\frac{\alpha}{2}\right)}\cdot\frac{\sigma}{\sqrt{n}}\right] \]

母平均の検定の例題

例題

あるカフェでは、\(1\) 杯のコーヒーは平均 \(200~\mathrm{mL}\) 注がれるように設定されいる。しかし「量が少ない気がする」とお客様から苦情が出てきた。そこでランダムに \(25\) 杯を計測したところ、標本平均は \(197.3~\mathrm{mL}\) であった。このとき、\(1\) 杯のコーヒーの量の平均は \(200~\mathrm{mL}\) より少ないと言えるか。以下の各場合において、有意水準 \(1\%\) で判断せよ。

母標準偏差が既知で \(5~\mathrm{mL}\) である場合
母分散が未知の場合

母平均を \(\mu\) として、次のように仮説を立てます。

帰無仮説 \(H_0:\mu=200\)
対立仮説 \(H_1:\mu\lt200\)

よって、左側検定を行います。 \(H_0\) が正しいと仮定して進めます。すなわち

\[ \mu=200 \]

と仮定します。

有意水準 \(\alpha\) は \(1\%\) と与えられているので \[ \alpha=0.01 \] です。

母分散は \(\sigma^2=5^2\) と既知なので、母平均の検定統計量は

\[ Z=\frac{\overline{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}=\frac{\overline{X}-200}{\frac{5}{\sqrt{25}}}\sim N(0,1) \]

となります。

左側検定で、有意水準 \(\alpha=0.01\) より、\(N(0,1)\) の下側 \(1\%\) 点 \(-z_{0.01}\) を求めます。棄却域 \(R\) は

\[ R=(-\infty,-2.33] \]

\(Z\) の実現値 \(z\) は

\[ z=\frac{197.3-200}{\frac{5}{\sqrt{25}}}=-2.7 \]

です。よって

\[ z\in R \]

であるから、\(H_0\) を棄却して \(H_1\) を採択します。したがって、\(1\) 杯のコーヒーの量の平均は \(200~\mathrm{mL}\) より少ないと言えます。
母分散 \(\sigma^2\) が未知なので、母平均の検定統計量は

\[ T=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}} \sim t(n-1) \]

となります。

左側検定で、有意水準 \(\alpha=0.01\) より、\(t(n-1)\) の下側 \(1\%\) 点 \(-t_{0.01}\) を求めます。棄却域 \(R\) は

\[ R=(-\infty,] \]

\(Z\) の実現値 \(z\) は

\[ t=\frac{197.3-200}{\frac{u}{\sqrt{25}}}= \]

です。よって

\[ t\in R \]

であるから、\(H_0\) を棄却して \(H_1\) を採択します。したがって、\(1\) 杯のコーヒーの量の平均は \(200~\mathrm{mL}\) より少ないと言えます。

例題（p値）

今度は先ほどの例題をp値を使って行います。 p値を計算して、有意水準 \(\alpha=0.01\) と比較します。

\[ \begin{align} p&=P(Z\le z)\\ &=P(Z\le -2.7)\\ &=P(Z\ge 2.7)\\ &=0.0035 \quad (\because\text{標準正規分布表より})\\ \end{align} \]

よって

\[ p\lt\alpha \]

したがって、帰無仮説 \(H_0\) を棄却し、対立仮説 \(H_1\) を採択します。 \(1\) 杯のコーヒーの量の平均は \(200~\mathrm{mL}\) より少ないと言えます。このように、棄却域法のときと同じ結論が得られます。

演習問題

例題

あるメーカーのカタログでは、ノートパソコンのバッテリーの平均駆動時間は \(10.0\) 時間とされている。実測データを疑っている消費者団体が、\(10\) 台のノートパソコンを無作為に選び、フル充電からバッテリー切れまでの駆動時間を調査したところ、次のデータが得られた。

\[ 10.3,~9.7,~10.1,~10.2,~9.8,~9.9,~10.0,~9.6,~9.8,~9.9 \]

このとき、カタログ値より実際の駆動時間が短いといえるか、有意水準 \(5\%\) で判断せよ。

解答

母平均を \(\mu\) として、次のように仮説を立てる。

帰無仮説 \(H_0:\mu=10.0\)
対立仮説 \(H_1:\mu\lt10.0\)

よって、左側検定を行う。 \(H_0\) が正しいと仮定する。

母分散が未知なので、母平均の検定統計量は次のようになる。

\[ T=\frac{\overline{X}-\mu}{\sqrt{\frac{U^2}{n}}}=\frac{\overline{X}-10.0}{\sqrt{\frac{U^2}{10}}}\sim t(9) \]

有意水準 \(5\%\) の左側検定なので、下側 \(5\%\) 点を求める。自由度 \(9\) の \(t\) 分布の下側 \(5\%\) 点 \(t_{0.05}(9)\) は、t分布のパーセント点表より

\[ t_{0.05}(9)=-1.833 \]

したがって、棄却域 \(R\) は

\[ R=(-\infty,-1.833] \]

標本平均 \(\overline{X}\) の実現値 \(\overline{x}\) は

\[ \begin{align} \overline{x}&=\frac{10.3+9.7+10.1+10.2+9.8+9.9+10.0+9.6+9.8+9.9}{10}\\ &=9.93 \end{align} \]

不偏分散 \(U^2\) の実現値 \(u^2\) は

\[ \begin{align} u^2&=\frac{1}{9}\{(10.3-9.93)^2+(9.7-9.93)^2+(10.1-9.93)^2+(10.2-9.93)^2+(9.8-9.93)^2+(9.9-9.93)^2+(10.0-9.93)^2+(9.6-9.93)^2+(9.8-9.93)^2+(9.9-9.93)^2\}\\ &=\frac{0.441}{9}=0.049 \end{align} \]

よって、\(T\) の実現値 \(t\) は

\[ t=\frac{9.93-10.0}{\sqrt{\frac{0.049}{10}}}=-\frac{0.07}{0.0702}=-1.00 \]

よって

\[ t\notin R \]

なので、帰無仮説 \(H_0\) は棄却されない。したがって、カタログ値より実際の駆動時間が短いとはいえない。