共分散・分散共分散行列

共分散

共分散は、2つの変数がどのように共に変化するかを表す統計量です。 2つの確率変数それぞれの平均とのズレを掛け合わせた期待値であり、次のように定義されます。

定義（共分散）

2つの確率変数 \(X,Y\) に対して

\[ \operatorname{Cov}[X,Y]=E[(X-E[X])(Y-E[Y])] \]

を \(X,Y\) の共分散という。

\(\operatorname{Cov}[X,Y]\) は \(\sigma_{XY}\) とも書かれます。

定理（共分散の性質）

確率変数 \(X,Y,Z\) と \(a,b,c,d\in\mathbb{R}\) に対して、次が成り立つ。

\(\operatorname{Cov}[aX+b,cY+d]=ac\operatorname{Cov}[X,Y]\)
\(\operatorname{Cov}[X+Z,Y]=\operatorname{Cov}[X,Y]+\operatorname{Cov}[Z,Y]\)
\(\operatorname{Cov}[X,Y]=E[XY]-E[X]E[Y]\)
\(X\) と \(Y\) が互いに独立ならば、\(\operatorname{Cov}[X,Y]=0\)

(3) の性質は特に重要です。

例題

あるお店で、ある５日間の気温（℃）とアイスの売上（本）のデータが以下のように記録されている。

日にち	１日目	２日目	３日目	４日目	５日目
気温（℃）	20	22	25	23	21
アイスの売上（本）	30	35	45	40	33

気温 \(X\) とアイスの売上 \(Y\) の共分散 \(\mathrm{Cov}[X,Y]\) を求めよ。

共分散は

\[ \mathrm{Cov}[X,Y]=E[(X-E[X])(Y-E[Y])] \]

なので、まず、期待値（平均） \(E[X],E[Y]\) を求めます。

\[ E[X]=\frac{20+22+25+23+21}{5}=\frac{111}{5}=22.2 \] \[ E[Y]=\frac{30+35+45+40+33}{5}=\frac{183}{5}=36.6 \]

よって

\[ \begin{align} \mathrm{Cov}[X,Y]&=E[(X-E[X])(Y-E[Y])]\\ &=E[(X-22.2)(Y-36.6)]\\ &=\frac{1}{5}\{(20-22.2)(30-36.6)+(22-22.2)(35-36.6)+(25-22.2)(45-36.6)+(23-22.2)(40-36.6)+(21-22.2)(33-36.6)\}\\ &=\frac{1}{5}\{(-2.2)(-6.6)+(-0.2)(-1.6)+(2.8)(8.4)+(0.8)(3.4)+(-1.2)(-3.6)\}\\ &=\frac{1}{5}(14.52+0.32+23.52+2.72+4.32)\\ &=\frac{45.4}{5}\\ &=9.08 \end{align} \]

と求まります。

あるいは公式

\[ \mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y] \]

を使う方法もあります。この場合 \(E[XY]\) も求めます。

\[ \begin{align} E[XY]&=\frac{(20\cdot30)+(22\cdot35)+(25\cdot45)+(23\cdot40)+(21\cdot33)}{5}\\ &=\frac{600+770+1125+920+693}{5}\\ &=\frac{4108}{5}\\ &=821.6 \end{align} \]

よって

\[ \begin{align} \mathrm{Cov}[X,Y]&=E[XY]-E[X]E[Y]\\ &=821.6-22.2\cdot36.6\\ &=9.08 \end{align} \]

と同じ結果が得られます。こちらの方が簡単な場合が多く、おすすめです。

分散共分散行列

定理（分散共分散行列）

確率ベクトル \(\boldsymbol{X}\in\mathbb{R}^n\) に対して

\[ \Sigma:=E\left[(\boldsymbol{X}-E[\boldsymbol{X}])(\boldsymbol{X}-E[\boldsymbol{X}])^\top\right] \]

を \(\boldsymbol{X}\) の分散共分散行列という。

\[ \begin{align} \Sigma&= \begin{bmatrix} E[(X_1-\mu_1)(X_1-\mu_1)] & E[(X_1-\mu_1)(X_2-\mu_2)] & \cdots & E[(X_1-\mu_1)(X_n-\mu_n)] \\ E[(X_2-\mu_2)(X_1-\mu_1)] & E[(X_2-\mu_2)(X_2-\mu_2)] & \cdots & E[(X_2-\mu_2)(X_n-\mu_n)] \\ \vdots & \vdots & \ddots & \vdots \\ E[(X_n-\mu_n)(X_1-\mu_1)] & E[(X_n-\mu_n)(X_2-\mu_2)] & \cdots & E[(X_n-\mu_n)(X_n-\mu_n)] \\ \end{bmatrix}\\ &= \begin{bmatrix} E[(X_1-\mu_1)^2] & E[(X_1-\mu_1)(X_2-\mu_2)] & \cdots & E[(X_1-\mu_1)(X_n-\mu_n)] \\ E[(X_2-\mu_2)(X_1-\mu_1)] & E[(X_2-\mu_2)^2] & \cdots & E[(X_2-\mu_2)(X_n-\mu_n)] \\ \vdots & \vdots & \ddots & \vdots \\ E[(X_n-\mu_n)(X_1-\mu_1)] & E[(X_n-\mu_n)(X_2-\mu_2)] & \cdots & E[(X_n-\mu_n)^2] \\ \end{bmatrix}\\ &= \begin{bmatrix} V[X_1] & \mathrm{Cov}[X_1,X_2] & \cdots & \mathrm{Cov}[X_1,X_n] \\ \mathrm{Cov}[X_2,X_1] & V[X_2] & \cdots & \mathrm{Cov}[X_2,X_n] \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}[X_n,X_1] & \mathrm{Cov}[X_n,X_2] & \cdots & V[X_n] \\ \end{bmatrix} \end{align} \]