最尤推定法
尤度関数
定義(尤度関数)
パラメータ \(\boldsymbol{\theta}\) をもつ母集団分布からの無作為標本を \(\boldsymbol{X}=\begin{bmatrix} X_1 & X_2 & \cdots & X_n \end{bmatrix}^\top\) とする。
\(\boldsymbol{X}\) の確率質量(密度)関数を \(f_{\boldsymbol{X}}(\boldsymbol{x};\boldsymbol{\theta})\) とするとき
\[
L(\boldsymbol{\theta} \mid \boldsymbol{x}):=f_{\boldsymbol{X}}(\boldsymbol{x};\boldsymbol{\theta})
\]
を \(\boldsymbol{\theta}\) の尤度関数という。
各 \(X_i\) は独立同一分布に従うので、\(X_i\) の確率質量(密度)関数を \(f_{X_i}(x_i;\boldsymbol{\theta})\) とすると
\[
f_{\boldsymbol{X}}(\boldsymbol{x};\boldsymbol{\theta})=\prod_{i=1}^nf_{X_i}(x_i;\boldsymbol{\theta})
\]
が成り立ちます。
これにより、尤度関数は
\[
L(\boldsymbol{\theta} \mid \boldsymbol{x})=\prod_{i=1}^nf_{X_i}(x_i;\boldsymbol{\theta})
\]
と書けます。
尤度関数は積の形で与えられることが多いため、計算を簡単にする目的で、その対数をとった関数をよく考えます。
定義(対数尤度関数)
尤度関数 \(L(\boldsymbol{\theta} \mid \boldsymbol{x})\) に対して
\[
\ell(\boldsymbol{\theta}\mid \boldsymbol{x}):= \log L(\boldsymbol{\theta}\mid \boldsymbol{x})
\]
を 対数尤度関数 という。
特に、各 \(X_i\) が独立同一分布に従う場合には、
\[
\ell(\boldsymbol{\theta}\mid \boldsymbol{x})
= \sum_{i=1}^n \log f_{X_i}(x_i;\boldsymbol{\theta})
\]
と書けます。
最尤推定法
定義(最尤推定値)
尤度関数 \(L(\boldsymbol{\theta} \mid \boldsymbol{x})\) に対して
\[
\hat{\boldsymbol{\theta}}_{\mathrm{ML}}=\operatorname*{arg max\;}_{\boldsymbol{\theta}} L(\boldsymbol{\theta} \mid \boldsymbol{x})
\]
を \(\boldsymbol{\theta}\) の最尤推定値という。
また、最尤推定値の実現値を確率変数に置き換えたものを最尤推定量という。
スコア関数
定義(スコア関数)
尤度関数 \(L(\boldsymbol{\theta} \mid \boldsymbol{x})\) に対して
\[
\frac{\partial}{\partial\boldsymbol{\theta}}\log L(\boldsymbol{\theta} \mid \boldsymbol{x})
\]
をスコア関数という。
定理(スコア関数の期待値)
\[
\mathbb{E}_{\boldsymbol{X}}\left[\frac{\partial}{\partial\boldsymbol{\theta}}\log L(\boldsymbol{\theta} \mid \boldsymbol{X}) \right]=\boldsymbol{0}
\]
証明
\[
\begin{align}
\mathbb{E}_{\boldsymbol{X}}\left[\frac{\partial}{\partial\boldsymbol{\theta}}\log L(\boldsymbol{\theta} \mid \boldsymbol{X}) \right]
&=\int_{-\infty}^\infty \frac{\partial}{\partial\boldsymbol{\theta}}\log L(\boldsymbol{\theta} \mid \boldsymbol{x}) f_{\boldsymbol{X}}(\boldsymbol{x} ; \boldsymbol{\theta}) d\boldsymbol{x} \\
&=\int_{-\infty}^\infty \frac{1}{L(\boldsymbol{\theta} \mid \boldsymbol{x})}\frac{\partial}{\partial\boldsymbol{\theta}} L(\boldsymbol{\theta} \mid \boldsymbol{x})f_{\boldsymbol{X}}(\boldsymbol{x} ; \boldsymbol{\theta}) d\boldsymbol{x} \\
&=\int_{-\infty}^\infty \frac{1}{f_{\boldsymbol{X}}(\boldsymbol{x} ; \boldsymbol{\theta})}\frac{\partial}{\partial\boldsymbol{\theta}} L(\boldsymbol{\theta} \mid \boldsymbol{x})f_{\boldsymbol{X}}(\boldsymbol{x} ; \boldsymbol{\theta}) d\boldsymbol{x} \\
&=\int_{-\infty}^\infty \frac{\partial}{\partial\boldsymbol{\theta}} L(\boldsymbol{\theta} \mid \boldsymbol{x}) d\boldsymbol{x} \\
&=\frac{\partial}{\partial\boldsymbol{\theta}} \int_{-\infty}^\infty L(\boldsymbol{\theta} \mid \boldsymbol{x}) d\boldsymbol{x} \\
&=\frac{\partial}{\partial\boldsymbol{\theta}} \int_{-\infty}^\infty f_{\boldsymbol{X}}(\boldsymbol{x} ; \boldsymbol{\theta}) d\boldsymbol{x} \\
&=\frac{\partial}{\partial\boldsymbol{\theta}} 1 \\
&=\boldsymbol{0}
\end{align}
\]