Data Analysis and Statistical Inference | CourseraのWeek 3の受講メモ。今週は、母分散が既知の場合の平均値の検定がテーマ。大学の教養で習っているはずの話だが理解が怪しい。講義を受けた後でもやっぱり怪しい。理解不十分なメモをWebにUPするのは害悪なのだが、ご容赦願いたい。
Video
sample variability
- 用語
- population of interest
- e.g. USの女性全体
- population mean
- e.g. USの女性全体の身長の平均
- sample
- USの女性全体から、たとえばある100人をランダムに選んだ1セット分
- sampling distribution
- sample statisticの分布のこと。例えば100人からなるsampleから求めた平均の分布。
- population of interest
- Central Limit Theorem(CLT)(中心極限定理)
- CLTの条件
- CLTをシミュレーションできるアプレット
confidence interval(信頼区間)
- confidence intervalとは
- population parameterが入っていそうな値の範囲
- 95%の信頼区間: xの平均 ± 2SE
- 2SE = margin of error (ME; 許容誤差)
confidence level
仮説
- null hypothesis(H0)
- status quo(現状)を表す
- alternative hypothesis(HA)
- リサーチクエスチョンを表す。つまり、私達が検証したいこと
Hypothesis Testing
- 平均値のhypothesis test
- 仮説をたてる
- H0: μ = null value
- H1: μ < or > or ≠ null value
- 点推定 x bar を計算する
- 条件をチェックする
- サンプルが独立かどうか (without replacementな場合は n < 10% of population)
- population distributionがskewedな場合はn>=30
- 絵を描く
- Z = (x bar - μ) / SE, SE = s / sqrt(n)
- p-value < αならH0を棄却, 逆ならH0を棄却できない
- 仮説をたてる
Decision Error
- 本当はH0が正しいのにH0をreject: Type 1 Error
- 本当はHAが正しいのにH0のrejectに失敗: Type 2 Error
- Type 1 Error
- P(Type 1 Error|H0 True) = α (e.g. 0.05)
- Type 1 Errorを避けたいときはαを小さな値にする(e.g. 0.01)
- Type 2 Errorを避けたいときはαを大きな値にする(e.g. 0.10)
- Type 1 errorの起こる確率: α
- Type 2 errorの起こる確率: β
- Power of a test: 1 - β
補遺(後でビデオを見なおして書いた分)
- sample proportion(標本比率)
- これよくわからなかった。0か1かの値をとる変数をn個サンプリングして作ったサンプルの中に1がある割合のこと??
- α=0.95のときの平均値の両側検定(まとめ)
- p-value(p値)
- p値の説明がわかりやすい
- 「帰無仮説が正しいという条件の下で、検定統計量の値より大きな値が得られる確率」のこと
- Z score
- 標準偏差何個分離れているかという値
R
- 標準偏差何個分離れているかという値
- qnorm()
- 正規分布のパーセンタイル
- forループ
- for ( i in 1:1000 ) {}
中間試験
中間試験を受けた。15問×2セットでチャンスは一度切り。ともに正解率は14/15だった。