擬似相関と偏相関係数

擬似相関

2つの変数の間に相関があるからといって、それが直接的な関係を意味するとは限りません。 実際には、どちらの変数にも影響を与えている「第3の変数」が存在することで、あたかも関係があるように見えるだけの場合があります。 このような見かけの相関を擬似相関といいます。

例(アイスクリームと水難事故)

「アイスクリームの売上」と「水難事故の件数」には、同じ年の夏に同時に増加するという相関が見られることがある。 しかし、これら2つの間に直接的な因果関係があるとは考えにくい。

実際には「気温(暑さ)」という第3の変数が存在し、それが両方に影響を与えている。 暑くなると人々はアイスクリームを買い、水辺に出かける機会が増えて水難事故が起きやすくなる。

偏相関係数

擬似相関のような、第三の変数の影響を除いて本当に関係があるのかを調べるために用いられるのが、偏相関係数です。 偏相関係数は、ある変数 \(z\) の影響を取り除いた上で、2つの変数 \(x, y\) の間にどれくらいの相関が残るかを測定します。

定義(偏相関係数)

変数 \(x,y,z\) に対して

\[ r_{xy\cdot z}:=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^2}\sqrt{1-r_{yz}^2}} \]

を \(z\) の影響を除いた上での \(x\) と \(y\) の偏相関係数という。

偏相関係数 \(r_{xy \cdot z}\) が \(0\) に近ければ \(x\) と \(y\) は擬似相関であり、実際には直接的な関係はないと判断できます。