標本調査

統計調査の方法

調査対象全体の集合を母集団といい、母集団が従う確率分布を母集団分布といいます。母集団分布の特徴を表す量を母数（パラメータ）といいます。特に、母集団分布の平均を母平均、分散を母分散、標準偏差を母標準偏差といいます。これらの母数について調べるには２通りの方法があります。

まず、全数調査です。全数調査とは、母集団に属するすべての個体を対象として調査する方法です。全数調査を行えば母集団分布を正確に特定できますが、母集団全体を調査することは困難であることが多いです。

もう一つは標本調査です。標本調査とは、母集団に属する一部の個体から全体の状況を推測する方法です。これからはこの標本調査について詳しく見ていきます。

標本と実現値

標本調査において、母集団から取り出された要素の集合を標本といい、母集団から標本を取り出すことを標本抽出といいます。また、抽出した標本の個数を標本の大きさといいます。標本は

\[ X_1,X_2,\cdots,X_n \]

のように表し、これらは取り方によって変化するので、確率変数として考えます。標本が互いに独立に同一の分布に従うとき、この標本を無作為標本といいます。また、実際の調査で得られるデータ

\[ x_1,x_2,\cdots,x_n \]

を実現値（観測値）といいます。

系統誤差と偶然誤差

系統誤差とは、測定機器や測定環境、測定者などが原因で測定値が偏る誤差のことです。何度測定しても同じ傾向（バイアス）が残るという特徴があります。

偶然誤差とは、測定毎にランダムにばらつく誤差のことです。これは観測数を増やして平均をとることで消すことができます。

標本誤差と非標本誤差

標本調査の結果が真の値からずれてしまう原因は、大きく分けて標本誤差と非標本誤差の2つがあります。

標本誤差とは、標本調査において、標本の取り方によって発生する誤差です。例えば、「母平均が本当は \(50\) なのに、抽出した標本では平均が \(48\) だった」というものです。標本誤差には次の特徴があります。

標本誤差の特徴

無作為抽出でも必ず発生する
標本の大きさを増やすと小さくできる
数学的に評価できる

非標本誤差とは、標本調査において、標本の取り方に関係なく発生する誤差です。調査設計やデータ収集の過程で生じます。例えば、「ネット利用者しか対象になっていない」「回答者が嘘をついた」「集計時に数値の桁を間違えた」というものです。非標本誤差には次の特徴があります。

非標本誤差の特徴

標本の大きさを増やしても減らせない
設計の工夫や実施方法の改善が必要
推定や修正が難しいことが多い

主な原因として以下のことが挙げられます。

非標本誤差の原因

カバレッジ誤差
… 調査対象から一部の集団が漏れている、重複している
非回答誤差
… 回答してくれない人が偏っている
測定誤差
… 記入ミス、インタビュー時の誘導、機器の不正確さ
処理誤差
… データの入力や集計のミス

フィッシャーの3原則

誤差を小さくするための原則として、統計学者ロナルド・フィッシャーが提唱した3つの原則があります。これはフィッシャーの3原則と呼ばれ、次のようなものです。

フィッシャーの3原則

反復
同じ条件で実験を複数回繰り返すこと
無作為化
実験の順番や測定場所などをランダムに決めること
局所管理
場所や時間のような系統誤差が生じる要因を、あらかじめブロックに区切って、その中で比較すること

また、フィッシャーの3原則をすべて満たす実験計画を乱塊法といいます。

演習問題

問題

解答