[Previous page] [Next page]

http://tsigeto.info/2022/statu/u221014.html
田中重人 (東北大学文学部教授) 2022-10-14

現代日本学演習V「実践的統計分析」

第2講 正規分布の利用


[配布資料PDF版]
[テーマ] 二項分布から正規分布へ、正規分布の性質、数表の利用、比率と平均値の区間推定

復習と宿題のポイント

宿題1について:

宿題2について:

このような、一定の確率 (課題2の場合は確率0.5) で偶然起こる出来事を n 回繰り返したとき、その出来事が起こる回数を理論的に予測した理論分布が「二項分布」(binomial distribution) である。

確率が0.5でない場合はどうなるか?

棄却域・採択域と信頼区間

理論分布: 一定の仮定の下での確率の分布を理論的に計算したもの

二項分布では、極端なケース (硬貨を8回投げて6回以上表、など) は起こる確率が低い。非常に確率が低いはずの極端な事象を観測したときは理論分布の仮定を疑う、というのが統計的推測の基本 (教科書 160頁)。

  1. 「危険率」(α) を決める (α=0.05 にすることが多い →信頼率0.95に対応)
  2. 理論分布の上下の端から、確率が α/2 を下回る領域を「棄却域」、それ以外の領域を「採択域」とする
  3. 棄却域と採択域との境界を「臨界値」という

区間推定の場合、「一定の仮定」を変化させながら、そのつど臨界値を計算し、実際の観測値 (標本統計量) と比較することになる。標本統計量が採択域に入るような仮定の集合をあらわすのが「信頼区間」である。


正規分布

二項分布は、試行回数を増やすと、一定の形状に近づいていく (グラフを描くと、左右対称で真ん中にピークを持つなだらかな曲線になる)。試行回数が無限大 (∞) のときの二項分布のことを「正規分布」(normal distribution) という。

真ん中 (=平均値) が0で標準偏差 (SD) が1になるように単位を調整して正規分布を描いたものを「標準正規分布」といい、N(0, 1) のようにあらわす。これを s 倍して m を足したものもやはり正規分布であり、 N( m, s2 ) であらわす。

標準正規分布については、臨界値の表が用意されている (教科書巻末)。

例題: 標準正規分布の α=0.05 に対応する棄却域と採択域を教科書の数表から求めよ。

母比率の推測の場合、それほど比率が偏っていなくて (0.1 < M < 0.9)、サンプルサイズが大きければ (n > 30)、正規分布で近似できるものと考えて代用することが多い。通常、「比率の区間推定」といえば、この方法を指す。 (実際には、平均値の区間推定 (後述) の方法で代用することが多い。)

母集団から無作為に n 人を抽出したところ、標本比率が m であった場合、母比率 M の95%信頼区間はつぎの式で求められる:

m ± 1.96 √[m(1-m)/n]

この式の √[m(1-m)/n] の部分を「標準誤差」(standard error) という。

臨界値1.96は危険率0.05に対するものである。この値は、危険率によって変わる (数表で調べる)。

例題: 標本規模 n=400 で標本比率 m=0.6 の場合、母比率 M の95%信頼区間は?。

多値変数の場合

中心極限定理

値がいくつもある (たとえば 1--5) 変数の場合は?

たとえば、サイコロ (1--6) を4回投げた場合、値の組合せは 6 × 6 × 6 × 6 = 1296 通りの可能性がある。これらがすべて等確率で起こると考えて、出現しうる平均値とそれらの出現確率を計算する。

すべての組合せについてこれをおこなうと、2項分布と同様の分布を描くことができる。回数が増えるにしたがって、正規分布に近づく (→中心極限定理)。

一様分布 (どの目もおなじ確率で出る) のサイコロだと、以上のように簡単に計算できる。しかし、1--6それぞれの目の出る確率がさまざまであるようなケースを想定して同様の計算をするのは、やはり実質的に不可能である。

平均値の区間推定

「母集団においては正規分布している」という仮定を置けば、標本における平均 m と標準偏差 s から、母集団における平均 M を推測できる。この推測プロセスでは、母集団における平均と標準偏差の2つを推測しなければならないため、正規分布ではなく、 t 分布 (Student's t distribution) を使う。

t 分布の性質 (教科書巻末参照):

母平均の95%信頼区間:

m ± 臨界値×SD / √n

臨界値は自由度と危険率によって変化する (数表で調べる)。標本規模200以上で信頼率95%なら、1.96 と考えてよい。


臨界値と標準誤差

信頼区間を決める式は、「臨界値」(critical value) と「標準誤差」(standard error) のふたつの成分からなる。

臨界値はその統計的推測で前提とする確率の理論分布による。

標準誤差はさらにふたつの成分にわかれる

このため、信頼区間はつぎの性質を持つ:

例題1: 適当な変数 (間隔尺度とみなせるもの) について平均値の信頼区間を求め、標準偏差と標本規模をあてはめて検算してみる
例題2: 信頼区間の幅を半分にするには、標本規模を何倍にする必要があるか (自由度の変化は無視してよい)
例題3: 標本規模を 2 → 4 → 8 → 16 のように増やした場合、信頼区間の幅はどのように変化するか (t 分布の自由度をふくめて考慮する)

平均値の差の推定と検定

ふたつのグループで別々に信頼区間を求めた場合:

通常は、「グループ間の平均値の差」について、母集団における値の信頼区間を求める方法をとる。→ 前期第11講

統計的検定について復習:


カイ2乗分布とF分布

推測統計手法で正規分布を使った推定・検定をおこなうことはあまり多くない。よく使うのは、正規分布を変形した t 分布、χ2分布、F分布である。いずれも「自由度」(degree of freedom: DF) と呼ばれるパラメータを持ち、それによって形が変わる。

t 分布: DFをひとつ持つ (DF = ケース数 − 1)。正規分布に似た形をしているが、ちょっと幅が広い。自由度が増えると正規分布に接近していき、およそ DF>200 で標準正規分布とほぼ同じものになる。平均と分散の両方を推定・検定する場合に使う。
χ2 分布: クロス表の独立性の検定で使う。DFによって形が変わる (DFは行・列のカテゴリ数からそれぞれ1を引いて求める)
F 分布: 分散分析 (η=0 を帰無仮説とした検定) で使う。DFをふたつ持つ (カテゴリ数−1 と ケース数−1)

標準正規分布に従う変数の2乗は、DF = 1の χ2 分布に従う。

t 分布に従う変数の2乗は、第1DF = 1 の F 分布に従う。


検定力

「検定力」(power of a statistical test) とは…… 母集団における一定の大きさの関連をどれくらいの危険率で検出できるか

標本の規模 (=ケース数) できまる
○○ の差を危険率 xx% で検出するには、どれくらいのケース数が必要か?

信頼区間の幅がどれくらいになるかを、標本の規模を変化させて計算してみるとよい。


課題

検定力について、つぎの計算をせよ


この授業のインデックス

前回の授業 | 次回の授業

TANAKA Sigeto


History of this page:


This page is monolingual in Japanese (encoded in accordance with MS-Kanji: "Shift JIS").

Generated 2022-10-14 15:37 +0900 with Plain2.

Copyright (c) 2022 TANAKA Sigeto