標本調査
統計調査の方法
調査対象全体の集合を母集団といい、母集団が従う確率分布を母集団分布といいます。 母集団分布の特徴を表す量を母数(パラメータ)といいます。 特に、母集団分布の平均を母平均、分散を母分散、標準偏差を母標準偏差といいます。 これらの母数について調べるには2通りの方法があります。
まず、全数調査です。 全数調査とは、母集団に属するすべての個体を対象として調査する方法です。 全数調査を行えば母集団分布を正確に特定できますが、母集団全体を調査することは困難であることが多いです。
もう一つは標本調査です。 標本調査とは、母集団に属する一部の個体から全体の状況を推測する方法です。 これからはこの標本調査について詳しく見ていきます。
標本と実現値
標本調査において、母集団から取り出された要素の集合を標本といい、母集団から標本を取り出すことを標本抽出といいます。 また、抽出した標本の個数を標本の大きさといいます。 標本は
のように表し、これらは取り方によって変化するので、確率変数として考えます。 標本が互いに独立に同一の分布に従うとき、この標本を無作為標本といいます。 また、実際の調査で得られるデータ
を実現値(観測値)といいます。
系統誤差と偶然誤差
系統誤差とは、測定機器や測定環境、測定者などが原因で測定値が偏る誤差のことです。 何度測定しても同じ傾向(バイアス)が残るという特徴があります。
偶然誤差とは、測定毎にランダムにばらつく誤差のことです。 これは観測数を増やして平均をとることで消すことができます。
標本誤差と非標本誤差
標本調査の結果が真の値からずれてしまう原因は、大きく分けて標本誤差と非標本誤差の2つがあります。
標本誤差とは、標本調査において、標本の取り方によって発生する誤差です。 例えば、「母平均が本当は \(50\) なのに、抽出した標本では平均が \(48\) だった」というものです。 標本誤差には次の特徴があります。
- 無作為抽出でも必ず発生する
- 標本の大きさを増やすと小さくできる
- 数学的に評価できる
非標本誤差とは、標本調査において、標本の取り方に関係なく発生する誤差です。 調査設計やデータ収集の過程で生じます。 例えば、「ネット利用者しか対象になっていない」「回答者が嘘をついた」「集計時に数値の桁を間違えた」というものです。 非標本誤差には次の特徴があります。
- 標本の大きさを増やしても減らせない
- 設計の工夫や実施方法の改善が必要
- 推定や修正が難しいことが多い
主な原因として以下のことが挙げられます。
-
カバレッジ誤差
… 調査対象から一部の集団が漏れている、重複している -
非回答誤差
… 回答してくれない人が偏っている -
測定誤差
… 記入ミス、インタビュー時の誘導、機器の不正確さ -
処理誤差
… データの入力や集計のミス
フィッシャーの3原則
誤差を小さくするための原則として、統計学者ロナルド・フィッシャーが提唱した3つの原則があります。 これはフィッシャーの3原則と呼ばれ、次のようなものです。
-
反復
同じ条件で実験を複数回繰り返すこと -
無作為化
実験の順番や測定場所などをランダムに決めること -
局所管理
場所や時間のような系統誤差が生じる要因を、あらかじめブロックに区切って、その中で比較すること
また、フィッシャーの3原則をすべて満たす実験計画を乱塊法といいます。