共分散・相関係数
共分散
共分散は、2つの変数がどのように共に変化するかを表す統計量です。 「2つの変数が同じ方向に動く傾向があるか?」、「逆の方向に動く傾向があるか?」を測る指標です。
確率変数 \(X,Y\) に対して
を \(X,Y\) の共分散という。
つまり、「 \(X\) と \(Y\) が平均からどれだけずれているか」を掛け合わせた期待値です。 \(\mathrm{Cov}[X,Y]\) は \(\sigma_{XY}\) とも書かれます。
- \(\mathrm{Cov}[aX,bY]=ab\mathrm{Cov}[X,Y]\)
- \(\mathrm{Cov}[X+Z,Y]=\mathrm{Cov}[X,Y]+\mathrm{Cov}[Z,Y]\)
- \(\mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y]\)
- \(X\) と \(Y\) が互いに独立ならば、\(\mathrm{Cov}[X,Y]=0\)
(3) の性質は特に重要です。
あるお店で、ある5日間の気温(℃)とアイスの売上(本)のデータが以下のように記録されている。
日にち | 1日目 | 2日目 | 3日目 | 4日目 | 5日目 |
---|---|---|---|---|---|
気温(℃) | 20 | 22 | 25 | 23 | 21 |
アイスの売上(本) | 30 | 35 | 45 | 40 | 33 |
気温 \(X\) とアイスの売上 \(Y\) の共分散 \(\mathrm{Cov}[X,Y]\) を求めよ。
共分散は
なので、まず、期待値(平均) \(E[X],E[Y]\) を求めます。
よって
と求まります。
あるいは公式
を使う方法もあります。この場合 \(E[XY]\) も求めます。
よって
と同じ結果が得られます。こちらの方が簡単な場合が多く、おすすめです。
相関係数
共分散は単位がついたままの値なので、値そのものの大きさは比較しにくいです。そこで、共分散を標準化したもの、相関係数を定義します。
確率変数 \(X,Y\) に対して \[ \rho[X,Y]=\frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}} \] を \(X,Y\) の相関係数という。
相関係数 \(\rho[X,Y]\) に対して \[ -1\le \rho[X,Y]\le1 \] が成り立つ。