[Previous page]
[Next page]
http://tsigeto.info/2018/statg/g180426.html
田中重人 (東北大学文学部准教授)
2018-04-26
現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」
第3講 統計分析の基礎
[配布資料PDF版]
- [テーマ]
累積度数の利用と統計分析の基礎
前回課題について
度数分布表の読みかた
- 度数
- 相対度数 (%)
- 累積度数・累積相対度数
- 欠損値のあつかい
(教科書 p. 27--31)
今回の課題
年齢(カテゴリ統合していない元の変数)の度数分布から、中央値と四分位を求めよ (提出は不要)。
参考資料:
また、任意のパーセンタイル (percentile) を求める方法を考えること。
発展問題 (余裕のある人のみ)
次の情報を参考にして、カテゴリ統合した後の年齢の度数分布表から中央値を求める方法を考える
データ収集から分析まで
- データの収集 (実験/観察)
- 分析可能な形に加工
- データ・セット作成
- クリーニング
- データの特徴を少数の数値に要約 = 記述統計
- 誤差の評価 (この手続きの一部が推測統計)
(教科書 p. 1--6)
標本抽出
標本抽出の4段階モデル
- 理論母集団 (universe) = 興味の対象となる人や事物の全体
- 調査母集団 (population) = 調査の対象とする具体的な範囲
- 計画標本 (designed sample) = 母集団から抽出した対象者のこと
- 有効標本 (valid sample / case) = 調査の結果あつまった有効なデータ
「無作為抽出」(random sampling) とは:
- 母集団から計画標本を選ぶ際に、母集団にふくまれるすべての個体の抽出確率が等しくなるように抽出する
- この結果として、
「確率標本」
(probability sample) がえられる
統計的な推測のための理屈は、確率標本を前提として組み立てられている。母集団の人口がわかっていて、全個体を網羅した台帳がないと、無作為抽出はできない。実際にはそういうことはないので、いろいろ工夫して無作為抽出に近づける。
「層化2段無作為抽出」はその方法のひとつ:
- まず「地点」を抽出 (第1次抽出)
- その際、地域・都市規模等で地点抽出数を割り当てておく (層化)
- その地点の台帳から個人を抽出 (第2次抽出)
宿題
- 教科書 pp. 7--16 を元に、「データの種類」の分類についてまとめよ
- SSM調査の質問項目のうち、比率尺度に当たるものはどれか
- 「中央値」「四分位」などに意味があるのはどの種類のデータか
- 「収入」や「学歴」を比率尺度として分析するにはどのようにすればよいか
ISTU で 5/9 (水) 正午までに提出。
この授業のインデックス
|
関連するブログ記事
前回の授業
|
次回の授業
TANAKA Sigeto
History of this page:
- 2018-04-26 : Created
- 2018-04-26 : Minor corrections
This page is monolingual in Japanese (encoded in accordance with MS-Kanji: "Shift JIS").
Generated 2018-04-26 10:12 +0900 with
Plain2.
Copyright (c) 2018
TANAKA Sigeto