共分散・相関係数

共分散

共分散は、2つの変数がどのように共に変化するかを表す統計量です。 「2つの変数が同じ方向に動く傾向があるか?」、「逆の方向に動く傾向があるか?」を測る指標です。

定義(共分散)

確率変数 \(X,Y\) に対して

\[ \mathrm{Cov}[X,Y]=E[(X-E[X])(Y-E[Y])] \]

\(X,Y\) の共分散という。

つまり、「 \(X\) と \(Y\) が平均からどれだけずれているか」を掛け合わせた期待値です。 \(\mathrm{Cov}[X,Y]\) は \(\sigma_{XY}\) とも書かれます。

定理(共分散の性質)
\(X,Y\) を確率変数、\(a,b\in\mathbb{R}\) とすると、以下が成り立つ。
  1. \(\mathrm{Cov}[aX,bY]=ab\mathrm{Cov}[X,Y]\)
  2. \(\mathrm{Cov}[X+Z,Y]=\mathrm{Cov}[X,Y]+\mathrm{Cov}[Z,Y]\)
  3. \(\mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y]\)
  4. \(X\) と \(Y\) が互いに独立ならば、\(\mathrm{Cov}[X,Y]=0\)

(3) の性質は特に重要です。

例題

あるお店で、ある5日間の気温(℃)とアイスの売上(本)のデータが以下のように記録されている。

日にち1日目2日目3日目4日目5日目
気温(℃)2022252321
アイスの売上(本)3035454033

気温 \(X\) とアイスの売上 \(Y\) の共分散 \(\mathrm{Cov}[X,Y]\) を求めよ。

共分散は

\[ \mathrm{Cov}[X,Y]=E[(X-E[X])(Y-E[Y])] \]

なので、まず、期待値(平均) \(E[X],E[Y]\) を求めます。

\[ E[X]=\frac{20+22+25+23+21}{5}=\frac{111}{5}=22.2 \] \[ E[Y]=\frac{30+35+45+40+33}{5}=\frac{183}{5}=36.6 \]

よって

\[ \begin{align} \mathrm{Cov}[X,Y]&=E[(X-E[X])(Y-E[Y])]\\ &=E[(X-22.2)(Y-36.6)]\\ &=\frac{1}{5}\{(20-22.2)(30-36.6)+(22-22.2)(35-36.6)+(25-22.2)(45-36.6)+(23-22.2)(40-36.6)+(21-22.2)(33-36.6)\}\\ &=\frac{1}{5}\{(-2.2)(-6.6)+(-0.2)(-1.6)+(2.8)(8.4)+(0.8)(3.4)+(-1.2)(-3.6)\}\\ &=\frac{1}{5}(14.52+0.32+23.52+2.72+4.32)\\ &=\frac{45.4}{5}\\ &=9.08 \end{align} \]

と求まります。

あるいは公式

\[ \mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y] \]

を使う方法もあります。この場合 \(E[XY]\) も求めます。

\[ \begin{align} E[XY]&=\frac{(20\cdot30)+(22\cdot35)+(25\cdot45)+(23\cdot40)+(21\cdot33)}{5}\\ &=\frac{600+770+1125+920+693}{5}\\ &=\frac{4108}{5}\\ &=821.6 \end{align} \]

よって

\[ \begin{align} \mathrm{Cov}[X,Y]&=E[XY]-E[X]E[Y]\\ &=821.6-22.2\cdot36.6\\ &=9.08 \end{align} \]

と同じ結果が得られます。こちらの方が簡単な場合が多く、おすすめです。

相関係数

共分散は単位がついたままの値なので、値そのものの大きさは比較しにくいです。そこで、共分散を標準化したもの、相関係数を定義します。

定義(相関係数)

確率変数 \(X,Y\) に対して \[ \rho[X,Y]=\frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}} \] を \(X,Y\) の相関係数という。

定理(相関係数の値域)

相関係数 \(\rho[X,Y]\) に対して \[ -1\le \rho[X,Y]\le1 \] が成り立つ。

証明