自己情報量
自己情報量の定義
情報量とは、ある情報がどれだけ「驚き」を持っているかを表す指標です。
情報量が満たすべき性質として、次が挙げられます。
情報量が満たすべき性質
- 複数の独立事象が起きたとき、全体の情報量は各情報量の和になる
- 起きる確率が高い事象ほど、情報量は小さい
これを数学的に書くと次のようになります。
\(a,b\) を事象とする。
\[
I(ab)=I(a)+I(b)
\]
\[
P(a)\lt P(b)\Longleftrightarrow I(a)\gt I(b)
\]
これらを満たす関数は
\[
I(x)=-\log(x)
\]
である。以上より、次のように情報量を定義します。
証明
\[
f(xy)=f(x)+f(y)
\]
において、\(y=1\) とすると
\[
f(x)=f(x)+f(1)
\]
よって
\[
f(1)=0~\cdots~\text{①}
\]
である。
\(f(x)\) は微分可能であるから
\[
\begin{align}
f'(x)&=\lim_{\varDelta x\to0}\frac{f(x+\varDelta x)-f(x)}{\varDelta x}\\
&=\lim_{\varDelta x\to0}\frac{f(x(1+\frac{\varDelta x}{x}))-f(x)}{\varDelta x}\\
&=\lim_{\varDelta x\to0}\frac{f(x)+f(1+\frac{\varDelta x}{x})-f(x)}{\varDelta x}\\
&=\lim_{\varDelta x\to0}\frac{f(1+\frac{\varDelta x}{x})}{\varDelta x}\\
\end{align}
\]
ここで、\(\displaystyle t=\frac{\varDelta x}{x}\) とおくと \(t\to0\) であり
\[
f'(x)=\lim_{t\to0}\frac{f(1+t)}{xt}=\frac{1}{x}\cdot\lim_{t\to0}\frac{f(1+t)}{t}
\]
ここで、\(\displaystyle\lim_{t\to0}\frac{f(1+t)}{t}=A\) とおき、両辺を \(x\) で積分すると
\[
\int f'(x)dx=\int\frac{A}{x}dx
\]
\[
f(x)=A\log x+C
\]
① より \(C=0\) であるから、\(f(x)=A\log x\)
定義(自己情報量)
事象 \(a\) に対して
\[
I(a)=-\log_2P(a)~~~[\mathrm{bit}]
\]
を事象 \(a\) の自己情報量という。
底は \(2\) の他に \(e,3,10\) なども考えられるが、情報理論では \(2\) を底とする。
例題
ある地域では、年間、雨の日は60日、雪の日は3日間だけである。この地域で、次の場合の自己情報量を求めよ。(小数第2位まで)
- 「今日は雪だった」と聞いたとき
- 「今日は雨か雪だった」と聞いた後に「今日は雪だった」と判明したとき
解答
- 「今日は雪である」という事象を \(A\) とする。 この地域で雪が降る確率は \[ P(A)=\displaystyle\frac{3}{365} \] よって、求める自己情報量は \[ I(A)=-\log_2\frac{3}{365}=6.93~\mathrm{bit} \]
- 「今日は雨か雪である」という事象を \(B\) とする。 「今日は雨か雪である」と聞いた後に「今日は雪である」という確率は \[ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{\frac{3}{360}}{\frac{60+3}{360}}=\frac{3}{63}=\frac{1}{21} \] よって、求める自己情報量は \[ I(A|B)=-\log_2\frac{1}{21}=4.39~\mathrm{bit} \]
演習問題
例題