[Previous page] [Next page]

http://www.sal.tohoku.ac.jp/~tsigeto/2015/statg/g150611.html
田中重人 (東北大学文学部准教授) 2015-06-11

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

第8講 平均と分散


[配布資料PDF版]
[テーマ] 平均値と標準偏差の定義と計算

中間試験について

問1--2 が各6点、問3 が8点 (合計20点)

問1(3) について: SPSS の recode では、複数の割り当て規則が該当する場合、 前のほうが優先 で処理される。このため、(lowest thru 50 = 1)(50 thru highest = 2) と書いても (lowest thru 50 = 1)(51 thru highest = 2) と書いても結果は同じになる。しかし (50 thru highest = 2)(lowest thru 50 = 1) はちがう結果になる。


代表値と散布度

教科書 pp. 42--52 を読んで、「中央値」「四分位偏差」の計算方法を理解しよう。


平均値と標準偏差

平均 (mean): 総和をデータ数で割ったもの
分散 (variance): 平均値からの偏差の2乗値の平均
標準偏差 (standard deviation): 分散の平方根 (SD と書くことが多い)

教科書の表2-1 (p. 48) で何が計算されているかを理解する


宿題

教科書 p. 52 の練習問題2-3 について、平均値と標準偏差を計算せよ。計算の途中経過がわかるように解答すること。 ISTUで来週水曜正午まで。 → {ISTU}


度数分布表のオプション

度数分布表の「統計量」オプションで「平均値」と「標準偏差」をチェック。

練習問題:「生活全般満足度」について、平均値と標準偏差を出力してみよう。


順序尺度の変数の「平均値」

平均値は、本来は、間隔尺度以上の水準の変数にしか使えない。しかし、実際には、一定条件を満たせば、順序尺度についても平均値をとっていいとする基準が使われている。

具体的には、4点以上の尺度であって、正規分布に近似している場合 (教科書 p. 53--59)。これは、「偶然の積み重ねで形成されるものは正規分布にしたがう」という仮定による。

「正規分布に近似」しているかどうかは、通常、つぎの3点で判断する。

SPSSでヒストグラムを描いて検討するとよい。

「度数分布表」の「統計量」オプションで「歪度」「尖度」を指定すると、正規分布との乖離度を統計的に検討できる。これらの値は、正規分布のとき0をとり、絶対値が大きくなるほど、正規分布から外れる。およそ ±2 の範囲を超えていれば、正規分布からのずれが無視できない。

これらの条件を満たさない場合は非線形変換 (教科書 p.142--144) をおこなったり、順位に変換したりすることがある。あるいは、平均値を使わずに中央値を使って分析することもある。

なお、2値の変数は、この条件にかかわらず間隔尺度とみなしてよいが、一定以上のデータ数があり、あまり偏っていないことが必要。


平均値の欠点

平均値は「はずれ値」(outlier) の影響を受けやすい。あまりにかけはなれたケースがあるときは

などの方法を使うことがある。

また、極端なはずれ値がなくとも、左右非対称の分布の変数 (所得、人口、めったに起こらない現象の経験回数など) では、平均値より中央値の方が適切な代表値であることが多い。


この授業のインデックス | 関連するブログ記事

前回の授業 | 次回の授業

TANAKA Sigeto


History of this page:


This page is monolingual in Japanese (encoded in accordance with MS-Kanji: "Shift JIS").

Generated 2015-06-12 19:48 +0900 with Plain2.

Copyright (c) 2015 TANAKA Sigeto