仮説検定

仮説検定とは

標本調査により得られたデータから仮説の真偽を判定する方法を仮説検定といいます。 以下にその手順を示します。

帰無仮説を定める

検定の対象となる母数 \(\theta\) が特定の値 \(\theta_0\) であるという仮説を \[ H_0:\theta=\theta_0 \] と表し、この仮説 \(H_0\) を帰無仮説といいます。 この \(H_0\) を否定するかしないかを判断することが、仮説検定の目的です。

対立仮説を定める

帰無仮説 \(H_0\) が正しくないことを主張するための仮説 \(H_1\) を対立仮説といいます。 対立仮説としては、以下の3種類が考えられます。

  • \(H_1:\theta\neq\theta_0\) (両側検定)

  • \(H_1:\theta\gt\theta_0\) (右側検定)

  • \(H_1:\theta\lt\theta_0\) (左側検定)

有意水準を定める

帰無仮説 \(H_0\) が本当は正しいのに、\(H_0\) が誤りだと判断してしまう確率を有意水準(危険率)といい、\(\alpha\) で表します。 この \(\alpha\) の値は事前に定めます。一般的に \(\alpha=0.05~~(5\%)\) 、\(\alpha=0.01~~(1\%)\) とすることが多いです。

検定統計量を選び、棄却域を求める

母集団から \(n\) 個の無作為標本 \(X_1,X_2,\cdots,X_{n}\) を抽出します。 この無作為標本に対して、確率分布がわかる適用な統計量 \[ T(X_1,X_2,\cdots,X_n) \] を選びます。このような、検定に用いる統計量を検定統計量といいます。

帰無仮説 \(H_0\) が正しいと仮定した上で、検定統計量 \(T\) が従う分布を決定します。 \(T\) の確率密度関数 \(f_T(t)\) のグラフを用いて、対立仮説 \(H_1\) の定め方に応じて、有意水準 \(\alpha\) をもとに、下図のように 棄却域 \(R\) を求めます。

帰無仮説が否定できるか判断する

無作為標本 \(X_1,X_2,\cdots,X_{n}\) の実現値 \(x_1,x_2,\cdots,x_n\) を用いて、検定統計量 \(T\) の実現値 \[ T(x_1,x_2,\cdots,x_n) \] を求めます。この値が棄却域 \(R\) に含まれるかどうかを見ることにより、\(H_0\) を否定するかどうか判断します。 棄却域 \(R\) に入るということは、それだけ珍しい値である(怪しい)ということです。

仮説検定の流れのまとめ

仮説検定の流れ(棄却域法)
  1. 帰無仮説を定める
  2. 対立仮説を定める
  3. 有意水準を定める
  4. 検定統計量を選び、棄却域を求める
  5. 帰無仮説が否定できるか判断する

第1種の過誤と第2種の過誤

仮説検定は、あくまで統計学的判断なので、間違った結論を出してしまうことがあります。 この間違った結論には、以下の2種類があります。

第1種の過誤

帰無仮説 \(H_0\) が本当は正しいのにそれを棄却する誤り

有意水準 \(\alpha\) がこの過誤を犯す確率を表しています。 この \(\alpha\) の値を小さく設定すれば、第1種の過誤が起こる確率を小さくできます。

第2種の過誤

帰無仮説 \(H_0\) が本当は正しくないのにそれを棄却しない誤り

第2種の過誤を犯す確率は \(\beta\) で表す。 この \(\beta\) は未知の母数に依存するため、分析者がこの値を事前に知ることはできません。 そのため、分析者は主張したい仮説を対立仮説 \(H_1\) に設定し、帰無仮説 \(H_0\) が棄却されることを通じて、\(H_1\) を示すのが一般的です。 また、第2種の過誤を犯さない確率は \(1-\beta\) と表され、これを検出力といいます。

仮説検定を行う際は、\(\alpha,\beta\) が共に小さい方がもちろんいいのですが、片方を小さくするともう片方は大きくなる関係があります。

p値法

次のように定義される量をp値といいます。

\[ p=P(T\ge T_0~|~H_0) \]

p値が求まるのなら、より簡単に帰無仮説 \(H_0\) を棄却するかどうかを判断することができます。