CourseraのData Analysis and Statistical Inference Week 3


このエントリーをはてなブックマークに追加

Data Analysis and Statistical Inference | CourseraのWeek 3の受講メモ。今週は、母分散が既知の場合の平均値の検定がテーマ。大学の教養で習っているはずの話だが理解が怪しい。講義を受けた後でもやっぱり怪しい。理解不十分なメモをWebにUPするのは害悪なのだが、ご容赦願いたい。

Video

sample variability

  • 用語
    • population of interest
      • e.g. USの女性全体
    • population mean
      • e.g. USの女性全体の身長の平均
    • sample
      • USの女性全体から、たとえばある100人をランダムに選んだ1セット分
    • sampling distribution
      • sample statisticの分布のこと。例えば100人からなるsampleから求めた平均の分布。
  • Central Limit Theorem(CLT)(中心極限定理)
    • sample statisticsの分布は、平均がpopulation mean、分散がSE(standard error(標準誤差)) = population standard deviation / sqrt(sample size)な正規分布に従う
  • CLTの条件
    • 各サンプルが独立なこと
      • もし非復元抽出(取り出したボールを元に戻さない)の場合、n < 10%
    • 以下のどちらかが必要
      • populationの分布が正規分布
      • populationの分布が正規分布でない場合、n > 30(経験則)
        • population distributionがskewなほど、サンプルサイズnを大きくする必要あり
  • CLTをシミュレーションできるアプレット

confidence interval(信頼区間)

  • confidence intervalとは
    • population parameterが入っていそうな値の範囲
  • 95%の信頼区間: xの平均 ± 2SE
    • 2SE = margin of error (ME; 許容誤差)

confidence level

仮説

  • null hypothesis(H0)
  • alternative hypothesis(HA)
    • リサーチクエスチョンを表す。つまり、私達が検証したいこと

Hypothesis Testing

  • 平均値のhypothesis test
    • 仮説をたてる
      • H0: μ = null value
      • H1: μ < or > or ≠ null value
    • 点推定 x bar を計算する
    • 条件をチェックする
      • サンプルが独立かどうか (without replacementな場合は n < 10% of population)
      • population distributionがskewedな場合はn>=30
    • 絵を描く
      • Z = (x bar - μ) / SE, SE = s / sqrt(n)
    • p-value < αならH0を棄却, 逆ならH0を棄却できない

Decision Error

  • 本当はH0が正しいのにH0をreject: Type 1 Error
  • 本当はHAが正しいのにH0のrejectに失敗: Type 2 Error
  • Type 1 Error
    • P(Type 1 Error|H0 True) = α (e.g. 0.05)
  • Type 1 Errorを避けたいときはαを小さな値にする(e.g. 0.01)
  • Type 2 Errorを避けたいときはαを大きな値にする(e.g. 0.10)
  • Type 1 errorの起こる確率: α
  • Type 2 errorの起こる確率: β
  • Power of a test: 1 - β

補遺(後でビデオを見なおして書いた分)

  • sample proportion(標本比率)
    • これよくわからなかった。0か1かの値をとる変数をn個サンプリングして作ったサンプルの中に1がある割合のこと??
  • α=0.95のときの平均値の両側検定(まとめ)
    • 信頼区間を求める
      • 正規分布の絵を描く
      • 真ん中に95%分の領域をとる
      • その領域の右端のパーセンタイルを、Rでqnorm(0.975)として求めると1.96となる。これは講義スライドでz*となっていた値
      • 信頼区間は、x bar(サンプルの平均) ± z* * σ(真の分散) / sqrt(n)となる
        • ここで z* * σ / sqrt(n) はME(margin of error)といわれる値
  • p-value(p値)
    • p値の説明がわかりやすい
    • 「帰無仮説が正しいという条件の下で、検定統計量の値より大きな値が得られる確率」のこと
  • Z score
  • qnorm()
  • forループ
    • for ( i in 1:1000 ) {}

中間試験

中間試験を受けた。15問×2セットでチャンスは一度切り。ともに正解率は14/15だった。