標本調査と統計量

統計調査の手法

調査対象全体の集合を母集団といい、母集団が従う確率分布を母集団分布といいます。 母集団分布の特徴を表す量を母数(パラメータ)といいます。 特に、母集団分布の平均を母平均、分散を母分散、標準偏差を母標準偏差といいます。 これらの母数について調べるには2通りの方法があります。

まず、全数調査です。 全数調査とは、母集団に属するすべての個体を対象として調査する手法です。 全数調査を行えば母集団分布を正確に特定できますが、母集団全体を調査することは困難であることが多いです。

もう一つは標本調査です。 標本調査とは、母集団に属する一部の個体から全体の状況を推測する手法です。 これからはこの標本調査について詳しく見ていきます。

標本抽出

標本調査において、母集団から取り出された要素の集合を標本といい、母集団から標本を取り出すことを標本抽出といいます。 また、抽出した標本の個数を標本の大きさといいます。 標本は

\[ X_1,X_2,\cdots,X_n \]

のように表し、これらは確率変数です。 標本が互いに独立に同一の分布に従うとき、この標本を無作為標本といいます。 これに対して、実際の調査で得られるデータ

\[ x_1,x_2,\cdots,x_n \]

実現値(観測値)といいます。

標本抽出法

標本抽出には、いくつかの方法があります。

単純無作為抽出法

最も基本的な抽出法であり、母集団の全要素から同じ確率で無作為に抽出する方法です。

標本誤差と非標本誤差

統計調査の結果が真の値からずれてしまう原因は、大きく分けて標本誤差非標本誤差の2つがあります。

標本誤差

標本誤差とは、標本を使って母集団を推測するときに、標本の選び方や偶然性によって生じる誤差のことです。 標本誤差には次の特徴があります。

  • 無作為抽出でも必ず発生する

  • 標本の大きさを増やすと小さくできる

  • 数学的に評価できる

例えば、「母平均が本当は \(50\) なのに、抽出した標本では平均が \(48\) だった」といったものです。

非標本誤差

非標本誤差とは、標本の偶然性以外で生じる誤差であり、調査設計やデータ収集の過程で発生します。 非標本誤差には次の特徴があります。

  • 標本の大きさを増やしても減らせない

  • 設計の工夫や実施方法の改善が必要

  • 推定や修正が難しいことが多い

主な原因として以下のことが挙げられます。

  • カバレッジ誤差
    … 調査対象から一部の集団が漏れている、重複している

  • 非回答誤差
    … 回答してくれない人が偏っている

  • 測定誤差
    … 記入ミス、インタビュー時の誘導、機器の不正確さ

  • 処理誤差
    … データの入力や集計のミス

例えば、「ネット利用者しか対象になっていない」、「回答者が嘘をついた」、「集計時に数値の桁を間違えた」といったものです。

統計量の定義

標本 \(X_1,X_2,\cdots,X_n\) の関数

\[ T(X_1,X_2,\cdots,X_n) \]

統計量といいます。 標本 \(X_1,X_2,\cdots,X_n\) の実現値がそれぞれ \(x_1,x_2,\cdots,x_n\)であるとき、統計量 \(T\) が定める値

\[ T(x_1,x_2,\cdots,x_n) \]

を統計量 \(T\) の実現値といいます。

代表的な統計量として、標本平均と不偏分散があります。

標本平均

定義(標本平均)

無作為標本 \(X_1,~X_2,~\cdots,~X_n\) に対して

\[ \overline{X}:=\frac{1}{n}\sum_{i=1}^nX_i \]

標本平均という。

定理(標本平均の期待値と分散)

平均 \(\mu\) 、分散 \(\sigma^2\) の母集団からの無作為標本の標本平均 \(\overline{X}\) に対して、以下が成り立つ。

\[ E[\overline{X}]=\mu,~~~~~V[\overline{X}]=\frac{\sigma^2}{n} \]

不偏分散

定義(不偏分散)

無作為標本 \(X_1,~X_2,~\cdots,~X_n\) とその標本平均 \(\overline{X}\) に対して

\[ U^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \]

不偏分散という。

演習問題

問題
解答