データのばらつきの指標

平均偏差

各データ \(x_1,x_2,\cdots,x_n\) からその平均 \(\overline{x}\) を引いたもの

\[ x_i-\overline{x}\quad (i=1,2,\cdots,n) \]

偏差といいます。 これは各データが平均からどのくらい離れているのかを示します。

各データの偏差を平均すれば、データのばらつきを表現できそうですが、そのまま偏差の平均を考えると

\[ \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})=\left(\frac{1}{n}\sum_{i=1}^nx_i\right)-\overline{x}=\overline{x}-\overline{x}=0 \]

のように \(0\) となってしまいます。 これを回避するために偏差の絶対値をとったものを考えます。

定義(平均偏差)

\(n\) 個のデータ \(x_1,x_2,\cdots,x_n\) とその平均 \(\overline{x}\) に対して

\[ d=\frac{1}{n}\sum_{i=1}^n|x_i-\overline{x}| \]

をデータの平均偏差という。

分散と標準偏差

前項の平均偏差では、偏差に絶対値をとることで、\(0\) になるのを回避しましたが、2乗をしてもうまくいきます。 偏差の2乗の平均を分散といい、次のように定義されます。

定義(分散)

\(n\) 個のデータ \(x_1,x_2,\cdots,x_n\) とその平均 \(\overline{x}\) に対して

\[ s_x^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 \]

分散という。

変動係数

定義(変動係数)

データの平均 \(\overline{x}\) と標準偏差 \(s_x\) に対して

\[ CV=\frac{s_x}{\overline{x}} \]

をデータの変動係数という。

演習問題

問題
解答