自己情報量

自己情報量の定義

情報量とは、ある情報がどれだけ「驚き」を持っているかを表す指標です。

情報量が満たすべき性質として、次が挙げられます。

情報量が満たすべき性質

複数の独立事象が起きたとき、全体の情報量は各情報量の和になる
起きる確率が高い事象ほど、情報量は小さい

これを数学的に書くと次のようになります。

\(a,b\) を事象とする。 \[ I(ab)=I(a)+I(b) \] \[ P(a)\lt P(b)\Longleftrightarrow I(a)\gt I(b) \] これらを満たす関数は \[ I(x)=-\log(x) \] である。以上より、次のように情報量を定義します。

証明

\[ f(xy)=f(x)+f(y) \] において、\(y=1\) とすると \[ f(x)=f(x)+f(1) \] よって \[ f(1)=0~\cdots~\text{①} \] である。

\(f(x)\) は微分可能であるから \[ \begin{align} f'(x)&=\lim_{\varDelta x\to0}\frac{f(x+\varDelta x)-f(x)}{\varDelta x}\\ &=\lim_{\varDelta x\to0}\frac{f(x(1+\frac{\varDelta x}{x}))-f(x)}{\varDelta x}\\ &=\lim_{\varDelta x\to0}\frac{f(x)+f(1+\frac{\varDelta x}{x})-f(x)}{\varDelta x}\\ &=\lim_{\varDelta x\to0}\frac{f(1+\frac{\varDelta x}{x})}{\varDelta x}\\ \end{align} \] ここで、\(\displaystyle t=\frac{\varDelta x}{x}\) とおくと \(t\to0\) であり \[ f'(x)=\lim_{t\to0}\frac{f(1+t)}{xt}=\frac{1}{x}\cdot\lim_{t\to0}\frac{f(1+t)}{t} \] ここで、\(\displaystyle\lim_{t\to0}\frac{f(1+t)}{t}=A\) とおき、両辺を \(x\) で積分すると \[ \int f'(x)dx=\int\frac{A}{x}dx \] \[ f(x)=A\log x+C \] ① より \(C=0\) であるから、\(f(x)=A\log x\)

定義（自己情報量）

事象 \(a\) に対して \[ I(a)=-\log_2P(a)~~~[\mathrm{bit}] \] を事象 \(a\) の自己情報量という。

底は \(2\) の他に \(e,3,10\) なども考えられるが、情報理論では \(2\) を底とする。

例題

ある地域では、年間、雨の日は60日、雪の日は3日間だけである。
この地域で、次の場合の自己情報量を求めよ。（小数第2位まで）

「今日は雪だった」と聞いたとき
「今日は雨か雪だった」と聞いた後に「今日は雪だった」と判明したとき

解答

「今日は雪である」という事象を \(A\) とする。
この地域で雪が降る確率は \[ P(A)=\displaystyle\frac{3}{365} \] よって、求める自己情報量は \[ I(A)=-\log_2\frac{3}{365}=6.93~\mathrm{bit} \]
「今日は雨か雪である」という事象を \(B\) とする。
「今日は雨か雪である」と聞いた後に「今日は雪である」という確率は \[ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{\frac{3}{360}}{\frac{60+3}{360}}=\frac{3}{63}=\frac{1}{21} \] よって、求める自己情報量は \[ I(A|B)=-\log_2\frac{1}{21}=4.39~\mathrm{bit} \]

補足：事前に雨か雪であることを知っている分、(2)の情報量は(1)より少ない。

演習問題

例題