MAP推定
問題の定式化
データの個数を \(N\) とします。
入力ベクトルを \(\boldsymbol{x}_n\in\mathbb{R}^D\) とし、これに対応する目標値を \(y_n\in\mathbb{R}\) として、データセット \(\mathcal{D}\) を次のように与えます。
\[
\mathcal{D}=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\cdots,(\boldsymbol{x}_N,y_N)\}
\]
この \(\mathcal{D}\) から入力ベクトルを取り出して、入力の集合として
\[
\mathcal{X}:=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_N\}
\]
を定めます。
同様に、目標値の集合として
\[
\mathcal{Y}:=\{y_1,y_2,\cdots,y_N\}
\]
を定めます。
次のモデルを考えます。
\[
y_n=f(\boldsymbol{x}_n)+\epsilon,\quad \epsilon\sim\mathcal{N}(0,\sigma^2)
\]
これは、入力 \(\boldsymbol{x}_n\) に対する出力 \(y_n\) は、真の関数 \(f(\boldsymbol{x}_n)\) にノイズ(誤差)\(\epsilon\) を加えたものであるとするものです。
このとき、正規分布の性質より
\[
y_n\sim\mathcal{N}(f(\boldsymbol{x}_n),\sigma^2)
\]
となります。
定義(MAP推定)
入力の集合 \(\mathcal{X}\) とそれに対応する目標値の集合 \(\mathcal{Y}\) に対して
\[
\boldsymbol{\theta}_{\mathrm{MAP}}=\underset{\boldsymbol{\theta}}{\operatorname{argmax}}p(\boldsymbol{\theta}|\mathcal{X},\mathcal{Y})
\]
をパラメータ \(\boldsymbol{\theta}\) のMAP推定値という。