[Previous page] [Next page]

http://tsigeto.info/2017/statg/g171012.html
田中重人 (東北大学文学部准教授) 2017-10-12

現代日本論演習/比較現代日本論研究演習III「実践的統計分析」

第2講 正規分布の利用


[配布資料PDF版]
[テーマ] 二項分布から正規分布へ、正規分布の性質、数表の利用、比率と平均値の区間推定

復習と宿題のポイント

宿題1について:

宿題2について:

このような、一定の確率 (課題2の場合は確率0.5) で偶然起こる出来事を n 回繰り返したとき、その出来事が起こる回数を理論的に予測した理論分布が「二項分布」(binomial distribution) である。

確率が0.5でない場合はどうなるか?

棄却域と採択域

理論分布: 一定の仮定の下での確率の分布を理論的に計算したもの

二項分布では、極端なケース (硬貨を8回投げて6回以上表、など) は起こる確率が低い。非常に確率が低いはずの極端な事象を観測したときは理論分布の仮定を疑う、というのが統計的推測の基本 (教科書 160頁)。

  1. 「危険率」(α) を決める (α=0.05 にすることが多い →信頼率0.95に対応)
  2. 理論分布の上下の端から、確率が α/2 を下回る領域を「棄却域」、それ以外の領域を「採択域」とする
  3. 棄却域と採択域との境界を「臨界値」という

区間推定の場合、「一定の仮定」を変化させながら、そのつど臨界値を計算し、実際の観測値と比較することになる。


正規分布

二項分布は、試行回数を増やすと、一定の形状に近づいていく (グラフを描くと、左右対称で真ん中にピークを持つなだらかな曲線になる)。試行回数が無限大 (∞) のときの二項分布のことを「正規分布」(normal distribution) という。

真ん中 (=平均値) が0で標準偏差 (SD) が1になるように単位を調整して正規分布を描いたものを「標準正規分布」といい、N(0,1) のようにあらわす。これを s 倍して m を足したものもやはり正規分布であり、N(m,s) であらわす。

標準正規分布については、臨界値の表が用意されている (教科書巻末)。

例題: 標準正規分布の α=0.05 に対応する棄却域と採択域を教科書の数表から求めよ。

母比率の推測の場合、それほど比率が偏っていなくて (0.1 < M < 0.9)、サンプルサイズが大きければ (n > 30)、正規分布で近似できるものと考えて代用することが多い。通常、「比率の区間推定」といえば、この方法を指す。 (実際には、平均値の区間推定 (後述) の方法で代用することが多い。)

母集団から無作為に n 人を抽出したところ、標本比率が m であった場合、母比率 M の95%信頼区間はつぎの式で求められる:

\begin{equation} m \pm 1.96 \sqrt{ \frac{ m (1-m) } {n} } \end{equation}

この式の $ \sqrt{ \frac{ m (1-m) } {n} } $ の部分を「標準誤差」(standard error) という。

臨界値1.96は危険率0.05に対するものである。この値は、危険率によって変わる (数表で調べる)。

例題: 標本規模 n=400 で標本比率 m=0.6 の場合、母比率 M の95%信頼区間は?。

平均値の区間推定

値がいくつもある (たとえば 1--5) 変数の場合は?

すべての組合せについて理論分布を求めることは、事実上不可能

間隔尺度以上の変数の場合には、「母集団においては正規分布している」という仮定を置けば、平均値の区間推定が可能。つまり、標本における平均 m と標準偏差 s から、母集団における平均 M を推測する。この推測プロセスでは、母集団における平均と標準偏差の2つを推測しなければならないため、正規分布ではなく、 t 分布 (Student's t distribution) を使う。

t 分布の性質 (教科書巻末参照):

母平均の95%信頼区間:

\begin{equation} m \pm \mbox{臨界値} \frac{ \mbox{SD} } {\sqrt{n} } \end{equation}

臨界値は自由度と危険率によって変化する (数表で調べる)。標本規模200以上で信頼率95%なら、1.96 と考えてよい。


SPSS コマンド

「分析」→「記述統計」→「探索的」

信頼率を変更するには「統計」オプション。「因子」を指定すると、グループ別に分析できる


課題1

Wikipedia の「二項分布」の項 <http://ja.wikipedia.org/wiki/二項分布> と「正規分布」の項 <http://ja.wikipedia.org/wiki/正規分布> を読んで、これらの関係を理解する。


課題2

SPSSで、つぎのふたつの分析をおこなう

  1. 適当な変数について平均値の区間推定
  2. 同じ変数について、「因子」を指定して男女別の分析

これらの結果についてコメントをつけて提出 (ISTUで水曜正午まで)。他の人の意見をもらうこと(その人の名前を書く)

なお、前回課題未提出または内容が間違っていた人は、それもやり直して提出すること。ファイルは今回の課題とおなじでよい。


この授業のインデックス | 関連するブログ記事

前回の授業 | 次回の授業

TANAKA Sigeto


History of this page:


This page is monolingual in Japanese (encoded in accordance with MS-Kanji: "Shift JIS").

Generated 2017-10-12 07:28 +0900 with Plain2.

Copyright (c) 2017 TANAKA Sigeto