標本調査

統計調査の方法

調査対象全体の集合を母集団といい、母集団が従う確率分布を母集団分布といいます。 母集団分布の特徴を表す量を母数(パラメータ)といいます。 特に、母集団分布の平均を母平均、分散を母分散、標準偏差を母標準偏差といいます。 これらの母数について調べるには2通りの方法があります。

まず、全数調査です。 全数調査とは、母集団に属するすべての個体を対象として調査する方法です。 全数調査を行えば母集団分布を正確に特定できますが、母集団全体を調査することは困難であることが多いです。

もう一つは標本調査です。 標本調査とは、母集団に属する一部の個体から全体の状況を推測する方法です。 これからはこの標本調査について詳しく見ていきます。

標本と実現値

標本調査において、母集団から取り出された要素の集合を標本といい、母集団から標本を取り出すことを標本抽出といいます。 また、抽出した標本の個数を標本の大きさといいます。 標本は

\[ X_1,X_2,\cdots,X_n \]

のように表し、これらは取り方によって変化するので、確率変数として考えます。 標本が互いに独立に同一の分布に従うとき、この標本を無作為標本といいます。 また、実際の調査で得られるデータ

\[ x_1,x_2,\cdots,x_n \]

実現値(観測値)といいます。

系統誤差と偶然誤差

系統誤差とは、測定機器や測定環境、測定者などが原因で測定値が偏る誤差のことです。 何度測定しても同じ傾向(バイアス)が残るという特徴があります。

偶然誤差とは、測定毎にランダムにばらつく誤差のことです。 これは観測数を増やして平均をとることで消すことができます。

標本誤差と非標本誤差

標本調査の結果が真の値からずれてしまう原因は、大きく分けて標本誤差非標本誤差の2つがあります。

標本誤差とは、標本調査において、標本の取り方によって発生する誤差です。 例えば、「母平均が本当は \(50\) なのに、抽出した標本では平均が \(48\) だった」というものです。 標本誤差には次の特徴があります。

標本誤差の特徴
  • 無作為抽出でも必ず発生する
  • 標本の大きさを増やすと小さくできる
  • 数学的に評価できる

非標本誤差とは、標本調査において、標本の取り方に関係なく発生する誤差です。 調査設計やデータ収集の過程で生じます。 例えば、「ネット利用者しか対象になっていない」「回答者が嘘をついた」「集計時に数値の桁を間違えた」というものです。 非標本誤差には次の特徴があります。

非標本誤差の特徴
  • 標本の大きさを増やしても減らせない
  • 設計の工夫や実施方法の改善が必要
  • 推定や修正が難しいことが多い

主な原因として以下のことが挙げられます。

非標本誤差の原因
  • カバレッジ誤差
    … 調査対象から一部の集団が漏れている、重複している
  • 非回答誤差
    … 回答してくれない人が偏っている
  • 測定誤差
    … 記入ミス、インタビュー時の誘導、機器の不正確さ
  • 処理誤差
    … データの入力や集計のミス

フィッシャーの3原則

誤差を小さくするための原則として、統計学者ロナルド・フィッシャーが提唱した3つの原則があります。 これはフィッシャーの3原則と呼ばれ、次のようなものです。

フィッシャーの3原則
  1. 反復
    同じ条件で実験を複数回繰り返すこと
  2. 無作為化
    実験の順番や測定場所などをランダムに決めること
  3. 局所管理
    場所や時間のような系統誤差が生じる要因を、あらかじめブロックに区切って、その中で比較すること

また、フィッシャーの3原則をすべて満たす実験計画を乱塊法といいます。

演習問題

問題
解答