回帰係数の検定

回帰係数の検定とは

回帰分析では、目的変数を \(y\) として、説明変数 \(\boldsymbol{x}\) と回帰係数 \(\boldsymbol{\beta}\) を

\[ \boldsymbol{x}=\begin{bmatrix} 1 \\ x_1 \\ x_2 \\ \vdots \\ x_d\end{bmatrix} ,\quad \boldsymbol{\beta}=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_d\end{bmatrix} \]

と定めるとき

\[ \begin{align} y&=\boldsymbol{x}^\top\boldsymbol{\beta}+\varepsilon\\ &=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_dx_d+\varepsilon \end{align} \]

というモデルを考えます。

回帰係数の検定は、「説明変数 \(x_j\) は本当に \(y\) に影響していると言えるだろうか」を統計的に確かめる検定です。

検定統計量の導出

\[ \boldsymbol{y}=X\boldsymbol{\beta}+\boldsymbol{\varepsilon} ,\quad \boldsymbol{\varepsilon}\sim\mathcal{N}(\boldsymbol{0},\sigma^2I) \]

最小二乗解は

\[ \hat{\boldsymbol{\beta}}=(X^\top X)^{-1}X^\top\boldsymbol{y} \]

これにモデル式に代入すると

\[ \begin{align} \hat{\boldsymbol{\beta}}&=(X^\top X)^{-1}X^\top(X\boldsymbol{\beta}+\boldsymbol{\varepsilon})\\ &=(X^\top X)^{-1}X^\top X\boldsymbol{\beta}+(X^\top X)^{-1}X^\top\boldsymbol{\varepsilon}\\ &=\boldsymbol{\beta}+(X^\top X)^{-1}X^\top\boldsymbol{\varepsilon}\\ \end{align} \]

ここで、\(\boldsymbol{\varepsilon}\sim\mathcal{N}(\boldsymbol{0},\sigma^2I)\) より、正規分布の性質から

\[ \hat{\boldsymbol{\beta}}\sim\mathcal{N}(\boldsymbol{\beta},\{(X^\top X)^{-1}X^\top\}\sigma^2I\{(X^\top X)^{-1}X^\top\}^\top) \]

分散を整理すると

\[ \begin{align} &\{(X^\top X)^{-1}X^\top\}\sigma^2I\{(X^\top X)^{-1}X^\top\}^\top\\ &=\sigma^2\{(X^\top X)^{-1}X^\top\}\{(X^\top X)^{-1}X^\top\}^\top\\ &=\sigma^2\{(X^\top X)^{-1}X^\top\}\{X(X^\top X)^{-1}\}\\ &=\sigma^2\{(X^\top X)^{-1}X^\top X\}(X^\top X)^{-1}\\ &=\sigma^2(X^\top X)^{-1}\\ \end{align} \]

よって

\[ \hat{\boldsymbol{\beta}}\sim\mathcal{N}(\boldsymbol{\beta},\sigma^2(X^\top X)^{-1}) \]

成分ごとに見ると、第 \(j\) 成分は

\[ \hat{\beta}_j\sim\mathcal{N}(\beta_j,\sigma^2[(X^\top X)^{-1}]_{jj}) \]

となります。

このとき

\[ Z=\frac{\hat{\beta}_j-\beta_j}{\sigma\sqrt{[(X^\top X)^{-1}]_{jj}}} \sim \mathcal{N}(0,1) \]

となりますが、\(\sigma^2\) が未知なので、代わりに \(\sigma^2\) の不偏推定量を用います。分散の \(\sigma^2\) の不偏推定量 \(\hat{\sigma}^2\) は

\[ \hat{\sigma}^2=\frac{1}{N-d-1}\|\hat{\boldsymbol{\varepsilon}}\|^2 \]

したがって

\[ T=\frac{\hat{\beta}_j-\beta_j}{\hat{\sigma}\sqrt{[(X^\top X)^{-1}]_{jj}}} \sim t(N-d-1) \]