CourseraのData Analysis and Statistical Inference Week 6


このエントリーをはてなブックマークに追加

Data Analysis and Statistical Inference | CourseraのWeek 6の受講メモ。今週はカテゴリカルデータに関する検定などもろもろ。目的と、そのための手法がいくつも紹介されて、正直消化不良気味。

今週からMathJaxを使って数式を表示してみた。綺麗に数式が出るのはいいが、エスケープがめんどくて辟易。

Video

CLT for proportions

  • \( \hat{p} \sim N(mean = p, SE = \sqrt{\frac{p(1-p)}{n}}) \)
  • CLTのための条件
    • 独立性

      • random sample / assignment
      • replacementなしの場合、n < 10% population ランダムサンプリング / アサインメント
    • サンプルサイズ

      • 少なくとも10個のsuccessとfailureが含まれること
        • np >= 10 and n(1-p) >= 10
        • pがわからなければ\(\hat{p}\)をかわりに使う

信頼区間

  • \(\hat{p} \pm z^* SE_{\hat{p}} \)
    • \(ME = z^* SE_{\hat{p}} \)
    • \( \hat{p} \)の値どうするか
      • 前の研究で得た値があるならそれを使う そうでなければ0.5とする

2つのproportionを比べる

  • 例題: アメリカ人と、Coursera受講者との間で、銃を禁止する法律への賛成率に違いがあるか?
  • 信頼区間; \( (\hat{p}_1 - \hat{p}_2) \pm z^* SE_{\hat{p}_1 - \hat{p}_2} \)
    • \( SE = \sqrt{ \frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \)

2つのproportionを比較する仮説検定

  • pooled proportion
    • H0: p1 = p2
    • \( \hat{p}_{pool} = \frac{total successes}{total n} \)
  • confidence interval(observed): \(\hat{p}_1, \hat{p}_2\)を使う
  • hypothesis test(expected): \(\hat{p}_{pool}\)を使う

サンプルサイズが小さいときのproportion

  • H0仮説が正しいとしてシミュレーションを何度も行い、p-valueを算出

サンプルサイズが小さいときの2つのproportionの比較

  • 例: 手のひらの写真を見て自分のてのひらを選ぶ確率と、手の甲の
  • H0: p_back - p_palm = 0 仮説が正しいとしてシミュレーションを何度も行い、p-valueを算出

Chi-Square GOF(Goodness of Fit) Test

  • 3つ以上のレベルを持つ一つのカテゴリカルデータの分布を評価するためのテスト
  • 例: 陪審員の選択方法に、人種のバイアスはあるか?
    • 人口における人種の割合はわかっているとする
  • goodness of fit: 観察されたデータが、予想される分布に、どれだけよくfitしているかを評価するという意味
  • chi-square testのための条件
    • 独立性
      • random sample/assignment
      • もしsampling without replacementなら n < 10% of population
      • それぞれのcase(?)は、テーブルの一つのセルにのみ寄与する
    • サンプルサイズ
      • どのシナリオ(cell)も少なくとも5のexpected caseをもつ
  • chi-square 統計量
    • \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
      • O: observed
      • E: expected
      • k: セルの数
  • chi-square distribution
    • 自由度 df = k - 1 (kはセルの数)
    • kが小さいほどleft-skewed
  • p-value   * カイ二乗分布のtail areaの面積

Chi-Square Independence Test

  • 2つのカテゴリカルデータの間の関連性の有無を評価するためのテスト
    • 例: Weightとrelationshipは独立か否か?
  • Chi-square test of independence
    • \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
    • df = (R - 1) * (C - 1) (R, CはRowとColumnの数)
  • 計算例
    • obese / not obese の全体の割合を計算 → 0.256 or 0.744
    • datingな440人の中でobeseな人の割合: 440人 * 0.256 ≒ 113人
    • cohabitingな〃: 429人 * 0.256 ≒ 110人
    • cohabitingな〃: 424人 * 0.256 ≒ 108人

Rメモ

  • sum(dbinom(190:200, 200, 0.90))
    • p=0.90の二項分布で、200回試行して190回~200回Yesになる確率
  • pchisq(31.68, 2, lower.tail = FALSE)

Project

こないだ提案したResearch Questionに対して、実際に検定をしてみた結果をレポートにまとめた。今回はそれなりに気合を入れて作ったので、レビュワーに地雷を踏んでしまったと思わせることはないはず。