標本調査と統計量
統計調査の手法
調査対象全体の集合を母集団といい、母集団が従う確率分布を母集団分布といいます。 母集団分布の特徴を表す量を母数(パラメータ)といいます。 特に、母集団分布の平均を母平均、分散を母分散、標準偏差を母標準偏差といいます。 これらの母数について調べるには2通りの方法があります。
まず、全数調査です。 全数調査とは、母集団に属するすべての個体を対象として調査する手法です。 全数調査を行えば母集団分布を正確に特定できますが、母集団全体を調査することは困難であることが多いです。
もう一つは標本調査です。 標本調査とは、母集団に属する一部の個体から全体の状況を推測する手法です。 これからはこの標本調査について詳しく見ていきます。
標本抽出
標本調査において、母集団から取り出された要素の集合を標本といい、母集団から標本を取り出すことを標本抽出といいます。 また、抽出した標本の個数を標本の大きさといいます。 標本は
のように表し、これらは確率変数です。 標本が互いに独立に同一の分布に従うとき、この標本を無作為標本といいます。 これに対して、実際の調査で得られるデータ
を実現値(観測値)といいます。
標本抽出法
標本抽出には、いくつかの方法があります。
単純無作為抽出法
最も基本的な抽出法であり、母集団の全要素から同じ確率で無作為に抽出する方法です。
標本誤差と非標本誤差
統計調査の結果が真の値からずれてしまう原因は、大きく分けて標本誤差と非標本誤差の2つがあります。
標本誤差
標本誤差とは、標本を使って母集団を推測するときに、標本の選び方や偶然性によって生じる誤差のことです。 標本誤差には次の特徴があります。
無作為抽出でも必ず発生する
標本の大きさを増やすと小さくできる
数学的に評価できる
例えば、「母平均が本当は \(50\) なのに、抽出した標本では平均が \(48\) だった」といったものです。
非標本誤差
非標本誤差とは、標本の偶然性以外で生じる誤差であり、調査設計やデータ収集の過程で発生します。 非標本誤差には次の特徴があります。
標本の大きさを増やしても減らせない
設計の工夫や実施方法の改善が必要
推定や修正が難しいことが多い
主な原因として以下のことが挙げられます。
カバレッジ誤差
… 調査対象から一部の集団が漏れている、重複している非回答誤差
… 回答してくれない人が偏っている測定誤差
… 記入ミス、インタビュー時の誘導、機器の不正確さ処理誤差
… データの入力や集計のミス
例えば、「ネット利用者しか対象になっていない」、「回答者が嘘をついた」、「集計時に数値の桁を間違えた」といったものです。
統計量の定義
標本 \(X_1,X_2,\cdots,X_n\) の関数
を統計量といいます。 標本 \(X_1,X_2,\cdots,X_n\) の実現値がそれぞれ \(x_1,x_2,\cdots,x_n\)であるとき、統計量 \(T\) が定める値
を統計量 \(T\) の実現値といいます。
代表的な統計量として、標本平均と不偏分散があります。
標本平均
無作為標本 \(X_1,~X_2,~\cdots,~X_n\) に対して
を標本平均という。
平均 \(\mu\) 、分散 \(\sigma^2\) の母集団からの無作為標本の標本平均 \(\overline{X}\) に対して、以下が成り立つ。
不偏分散
無作為標本 \(X_1,~X_2,~\cdots,~X_n\) とその標本平均 \(\overline{X}\) に対して
を不偏分散という。