ローレンツ曲線とジニ係数
ローレンツ曲線
ローレンツ曲線は、分布の不平等さを視覚的に表すためのグラフです。 主に所得や資産の分布に対して用いられます。 横軸にデータ数の累積相対度数、縦軸にデータの値の累積相対度数をプロットします。
ローレンツ曲線の書き方は次の通りです。
データを \(x_1,x_2,\cdots,x_n\) とする。
-
データ数の累積相対度数を求める。
\[ \frac{1}{n},\frac{2}{n},\cdots,\frac{n}{n} \]
-
データの値の合計を求める。
\[ S=\sum_{i=1}^nx_{i} \]
-
データを小さい順に並べる。
\[ x_{(1)} \le x_{(2)} \le \cdots \le x_{(n)} \]
-
データの値の累積相対度数を求める。
\[ \frac{x_{(1)}}{S},\frac{x_{(1)}+x_{(2)}}{S},\cdots,\frac{x_{(1)}+x_{(2)}+\cdots+x_{(n)}}{S} \]
- データ数の累積相対度数を横軸、データの値の累積相対度数を縦軸に、原点を含めてプロットする。
データ数が多すぎる場合は、階級に等分して、各階級の合計を用いてプロットすることがあります。 例えば、5万個のデータに対して、小さい順に並べて1万個ずつ区切り、階級ごとに合計を求めます。 この各合計をデータとして累積相対度数を計算します。
ジニ係数
完全平等線とローレンツ曲線に囲まれた領域の面積の \(2\) 倍をジニ係数といいます。 ローレンツ曲線を \(f(x)\) とすると、次式で表されます。
\[
\textbf{ジニ係数}=2\int_0^1\{x-f(x)\}dx
\]