統計学標本と母集団中心極限定理大数の法則

標本と母集団

母集団というのは、目の前に置くことの出来ないけれども、知識・情報を得たいと考えている対象の全体数値の集まりのこと*1

これに対して、
標本とは、実際に調査や分析を行う対象とするために、今、目の前にある数値*2のことを言う。

知識・情報を得たいと考えている対象の全体を調査することが、時間、費用が制限されていたりして難しい場合、こういったケースがほとんどだけれど、母集団全体を調べずに、その一部分である標本を使ってデータ収集し、母集団の姿(特性)を明らかにするということをする*3

この一連のプロセスを標本調査と言い*4、こうしたアプローチのことを推測統計*5と言う。

いわゆる統計家は、こうした標本調査という一部のデータを使って全体を言い当てるというマジックを行う。

そして、そこに何らかの事象事象が起きる見込みを確率という表現でもって言い表す。

しかし、ここで、気をつけなくてはならないことは、標本なるものは、所詮は母集団のほんの一部分にすぎないということ。

そして、そのほんのの一部から得られる情報にもとづいて、全体の性質や、構造や、法則性を推測しているのだということ。

統計家はマジックを使っているのでも何でもないので、何らかの事象が起きる見込みをピタリと言い当てることは出来ない。

そこには、常に、常に不確実性がつきまとうことになる*6

http://www.digistats.net/image/2009/11/erinji.jpg
恵林寺@山梨県にて


*1 母集団と関係するある数値のことを『母集団特性』と言う。
*2 『今そこにある危機』というのはハリソン・フォード主演の映画である。原題は"CLEAR AND PRESENT DANGER"。DANGERという語を uncertainty あるいは peradventure に置き換えると統計家の出番となるだろう。
*3 必要なデータが全て手元にあるというラッキーなケースの場合には記述統計というツールを用いる。
*4 母集団から標本を抽出することは『標本抽出』と言ったり『サンプリング』と言ったりする。
*5 推測統計は母集団を記述するために平均と標準偏差という2つの数値をしばしば用いる。
*6 統計家は不確実性を伴う標本(データ)に基づいて帰納的に推論を行うことで、母集団に関する知見を得ようと試みる。つまりは、個々の具体的事実に基づいて、一般的な命題を抽出することを目指している。

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2009-11-14 (土) 23:08:20 (5270d)