パレート分布

パレート分布の定義

パレート分布は、所得分布やWebアクセス分布、都市の人口分布のような、一部の集団が全体の大部分を占める現象を表すのに用いられる確率分布です。

定義(パレート分布)

連続型確率変数 \(X\) の確率密度関数が

\[ f(x)=\dfrac{\alpha x_m^\alpha}{x^{\alpha+1}} \quad (x \ge x_m)\\ \]

であるとき、\(X\) は尺度母数 \(x_m\) 、形状母数 \(\alpha\) のパレート分布に従うといい

\[ X\sim Par(x_m,\alpha) \]

と表す。

パレート分布の導出

ある値 \(x\) を超える確率がべき乗で減少する

\[ P(X \gt x) \propto x^{-\alpha} \quad (\alpha \gt 0) \]

という仮定を考えます。 つまり、定数 \(k\in\mathbb{R}\) を用いて

\[ P(X \gt x) = kx^{-\alpha} \]

とします。

このとき、累積分布関数は

\[ \begin{align} F(x) &= P(X \le x) \\ &= 1-P(X \gt x) \\ &= 1-kx^{-\alpha} \end{align} \]

確率密度関数は

\[ f(x) = \frac{d}{dx}F(x) = \frac{\alpha k}{x^{\alpha+1}} \]

定義域全域で積分すると

\[ \int_{x_m}^\infty f(x)dx = \int_{x_m}^\infty \frac{\alpha k}{x^{\alpha+1}}dx = \left[-\frac{k}{x^\alpha}\right]_{x_m}^\infty = \frac{k}{x_m^\alpha} \]

確率密度関数の定義から \(\displaystyle\int_{x_m}^\infty f(x)dx = 1\) となるので

\[ k=x_m^\alpha \]

したがって、確率密度関数は

\[ f(x) = \frac{\alpha x_m^\alpha}{x^{\alpha+1}} \quad (x \ge x_m) \]

パレート分布の期待値と分散

定理(パレート分布の期待値と分散)

\(X\sim Par(x_m, \alpha)\) のとき、次が成り立つ。

\[ E[X]=\frac{\alpha x_m}{\alpha-1} \quad (\alpha \gt 1) \]
\[ V[X]=\frac{\alpha x_m^2}{(\alpha-1)^2(\alpha-2)} \quad (\alpha \gt 2) \]
証明
\( \begin{align} E[X] &=\int_{-\infty}^\infty xf(x)dx\\ \end{align} \)

\( \begin{align} V[X] &=E[X^2]-E[X]^2\\ \end{align} \)

パレート分布のパラメータ推定

\[ \hat{\alpha}_{\mathrm{ML}} = \frac{N}{\displaystyle\sum_{i=1}^N\log\left(\frac{x_i}{x_m}\right)} \]

演習問題

問題

解答