共分散・分散共分散行列

共分散

共分散は、2つの変数がどのように共に変化するかを表す統計量です。 2つの確率変数それぞれの平均とのズレを掛け合わせた期待値であり、次のように定義されます。

定義(共分散)

2つの確率変数 \(X,Y\) に対して

\[ \operatorname{Cov}[X,Y]=E[(X-E[X])(Y-E[Y])] \]

を \(X,Y\) の共分散という。

\(\operatorname{Cov}[X,Y]\) は \(\sigma_{XY}\) とも書かれます。

定理(共分散の性質)

確率変数 \(X,Y,Z\) と \(a,b,c,d\in\mathbb{R}\) に対して、次が成り立つ。

  1. \(\operatorname{Cov}[aX+b,cY+d]=ac\operatorname{Cov}[X,Y]\)
  2. \(\operatorname{Cov}[X+Z,Y]=\operatorname{Cov}[X,Y]+\operatorname{Cov}[Z,Y]\)
  3. \(\operatorname{Cov}[X,Y]=E[XY]-E[X]E[Y]\)
  4. \(X\) と \(Y\) が互いに独立ならば、\(\operatorname{Cov}[X,Y]=0\)

(3) の性質は特に重要です。

例題

あるお店で、ある5日間の気温(℃)とアイスの売上(本)のデータが以下のように記録されている。

日にち1日目2日目3日目4日目5日目
気温(℃)2022252321
アイスの売上(本)3035454033

気温 \(X\) とアイスの売上 \(Y\) の共分散 \(\mathrm{Cov}[X,Y]\) を求めよ。

共分散は

\[ \mathrm{Cov}[X,Y]=E[(X-E[X])(Y-E[Y])] \]

なので、まず、期待値(平均) \(E[X],E[Y]\) を求めます。

\[ E[X]=\frac{20+22+25+23+21}{5}=\frac{111}{5}=22.2 \] \[ E[Y]=\frac{30+35+45+40+33}{5}=\frac{183}{5}=36.6 \]

よって

\[ \begin{align} \mathrm{Cov}[X,Y]&=E[(X-E[X])(Y-E[Y])]\\ &=E[(X-22.2)(Y-36.6)]\\ &=\frac{1}{5}\{(20-22.2)(30-36.6)+(22-22.2)(35-36.6)+(25-22.2)(45-36.6)+(23-22.2)(40-36.6)+(21-22.2)(33-36.6)\}\\ &=\frac{1}{5}\{(-2.2)(-6.6)+(-0.2)(-1.6)+(2.8)(8.4)+(0.8)(3.4)+(-1.2)(-3.6)\}\\ &=\frac{1}{5}(14.52+0.32+23.52+2.72+4.32)\\ &=\frac{45.4}{5}\\ &=9.08 \end{align} \]

と求まります。

あるいは公式

\[ \mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y] \]

を使う方法もあります。この場合 \(E[XY]\) も求めます。

\[ \begin{align} E[XY]&=\frac{(20\cdot30)+(22\cdot35)+(25\cdot45)+(23\cdot40)+(21\cdot33)}{5}\\ &=\frac{600+770+1125+920+693}{5}\\ &=\frac{4108}{5}\\ &=821.6 \end{align} \]

よって

\[ \begin{align} \mathrm{Cov}[X,Y]&=E[XY]-E[X]E[Y]\\ &=821.6-22.2\cdot36.6\\ &=9.08 \end{align} \]

と同じ結果が得られます。こちらの方が簡単な場合が多く、おすすめです。

分散共分散行列

定理(分散共分散行列)

確率ベクトル \(\boldsymbol{X}\in\mathbb{R}^n\) に対して

\[ \Sigma:=E\left[(\boldsymbol{X}-E[\boldsymbol{X}])(\boldsymbol{X}-E[\boldsymbol{X}])^\top\right] \]

を \(\boldsymbol{X}\) の分散共分散行列という。

\[ \begin{align} \Sigma&= \begin{bmatrix} E[(X_1-\mu_1)(X_1-\mu_1)] & E[(X_1-\mu_1)(X_2-\mu_2)] & \cdots & E[(X_1-\mu_1)(X_n-\mu_n)] \\ E[(X_2-\mu_2)(X_1-\mu_1)] & E[(X_2-\mu_2)(X_2-\mu_2)] & \cdots & E[(X_2-\mu_2)(X_n-\mu_n)] \\ \vdots & \vdots & \ddots & \vdots \\ E[(X_n-\mu_n)(X_1-\mu_1)] & E[(X_n-\mu_n)(X_2-\mu_2)] & \cdots & E[(X_n-\mu_n)(X_n-\mu_n)] \\ \end{bmatrix}\\ &= \begin{bmatrix} E[(X_1-\mu_1)^2] & E[(X_1-\mu_1)(X_2-\mu_2)] & \cdots & E[(X_1-\mu_1)(X_n-\mu_n)] \\ E[(X_2-\mu_2)(X_1-\mu_1)] & E[(X_2-\mu_2)^2] & \cdots & E[(X_2-\mu_2)(X_n-\mu_n)] \\ \vdots & \vdots & \ddots & \vdots \\ E[(X_n-\mu_n)(X_1-\mu_1)] & E[(X_n-\mu_n)(X_2-\mu_2)] & \cdots & E[(X_n-\mu_n)^2] \\ \end{bmatrix}\\ &= \begin{bmatrix} V[X_1] & \mathrm{Cov}[X_1,X_2] & \cdots & \mathrm{Cov}[X_1,X_n] \\ \mathrm{Cov}[X_2,X_1] & V[X_2] & \cdots & \mathrm{Cov}[X_2,X_n] \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}[X_n,X_1] & \mathrm{Cov}[X_n,X_2] & \cdots & V[X_n] \\ \end{bmatrix} \end{align} \]