http://tsigeto.info/2022/statu/u221014.html
田中重人 (東北大学文学部教授)
2022-10-14
宿題1について:
宿題2について:
このような、一定の確率 (課題2の場合は確率0.5) で偶然起こる出来事を n 回繰り返したとき、その出来事が起こる回数を理論的に予測した理論分布が「二項分布」(binomial distribution) である。
二項分布では、極端なケース (硬貨を8回投げて6回以上表、など) は起こる確率が低い。非常に確率が低いはずの極端な事象を観測したときは理論分布の仮定を疑う、というのが統計的推測の基本 (教科書 160頁)。
区間推定の場合、「一定の仮定」を変化させながら、そのつど臨界値を計算し、実際の観測値 (標本統計量) と比較することになる。標本統計量が採択域に入るような仮定の集合をあらわすのが「信頼区間」である。
二項分布は、試行回数を増やすと、一定の形状に近づいていく (グラフを描くと、左右対称で真ん中にピークを持つなだらかな曲線になる)。試行回数が無限大 (∞) のときの二項分布のことを「正規分布」(normal distribution) という。
真ん中 (=平均値) が0で標準偏差 (SD) が1になるように単位を調整して正規分布を描いたものを「標準正規分布」といい、N(0, 1) のようにあらわす。これを s 倍して m を足したものもやはり正規分布であり、 N( m, s2 ) であらわす。
標準正規分布については、臨界値の表が用意されている (教科書巻末)。
- 例題: 標準正規分布の α=0.05 に対応する棄却域と採択域を教科書の数表から求めよ。
母比率の推測の場合、それほど比率が偏っていなくて (0.1 < M < 0.9)、サンプルサイズが大きければ (n > 30)、正規分布で近似できるものと考えて代用することが多い。通常、「比率の区間推定」といえば、この方法を指す。 (実際には、平均値の区間推定 (後述) の方法で代用することが多い。)
母集団から無作為に n 人を抽出したところ、標本比率が m であった場合、母比率 M の95%信頼区間はつぎの式で求められる:
m ± 1.96 √[m(1-m)/n]
この式の √[m(1-m)/n] の部分を「標準誤差」(standard error) という。
臨界値1.96は危険率0.05に対するものである。この値は、危険率によって変わる (数表で調べる)。
- 例題: 標本規模 n=400 で標本比率 m=0.6 の場合、母比率 M の95%信頼区間は?。
値がいくつもある (たとえば 1--5) 変数の場合は?
たとえば、サイコロ (1--6) を4回投げた場合、値の組合せは 6 × 6 × 6 × 6 = 1296 通りの可能性がある。これらがすべて等確率で起こると考えて、出現しうる平均値とそれらの出現確率を計算する。
すべての組合せについてこれをおこなうと、2項分布と同様の分布を描くことができる。回数が増えるにしたがって、正規分布に近づく (→中心極限定理)。
一様分布 (どの目もおなじ確率で出る) のサイコロだと、以上のように簡単に計算できる。しかし、1--6それぞれの目の出る確率がさまざまであるようなケースを想定して同様の計算をするのは、やはり実質的に不可能である。
「母集団においては正規分布している」という仮定を置けば、標本における平均 m と標準偏差 s から、母集団における平均 M を推測できる。この推測プロセスでは、母集団における平均と標準偏差の2つを推測しなければならないため、正規分布ではなく、 t 分布 (Student's t distribution) を使う。
t 分布の性質 (教科書巻末参照):
母平均の95%信頼区間:
m ± 臨界値×SD / √n
臨界値は自由度と危険率によって変化する (数表で調べる)。標本規模200以上で信頼率95%なら、1.96 と考えてよい。
信頼区間を決める式は、「臨界値」(critical value) と「標準誤差」(standard error) のふたつの成分からなる。
臨界値はその統計的推測で前提とする確率の理論分布による。
標準誤差はさらにふたつの成分にわかれる
このため、信頼区間はつぎの性質を持つ:
ふたつのグループで別々に信頼区間を求めた場合:
通常は、「グループ間の平均値の差」について、母集団における値の信頼区間を求める方法をとる。→ 前期第11講
統計的検定について復習:
推測統計手法で正規分布を使った推定・検定をおこなうことはあまり多くない。よく使うのは、正規分布を変形した t 分布、χ2分布、F分布である。いずれも「自由度」(degree of freedom: DF) と呼ばれるパラメータを持ち、それによって形が変わる。
標準正規分布に従う変数の2乗は、DF = 1の χ2 分布に従う。
t 分布に従う変数の2乗は、第1DF = 1 の F 分布に従う。
「検定力」(power of a statistical test) とは…… 母集団における一定の大きさの関連をどれくらいの危険率で検出できるか
信頼区間の幅がどれくらいになるかを、標本の規模を変化させて計算してみるとよい。
検定力について、つぎの計算をせよ
History of this page:
This page is monolingual in Japanese (encoded in accordance with MS-Kanji: "Shift JIS").
Generated 2022-10-14 15:37 +0900 with Plain2.
Copyright (c) 2022 TANAKA Sigeto