CourseraのData Analysis and Statistical Inference Week 6

Data Analysis and Statistical Inference | CourseraのWeek 6の受講メモ。今週はカテゴリカルデータに関する検定などもろもろ。目的と、そのための手法がいくつも紹介されて、正直消化不良気味。

今週からMathJaxを使って数式を表示してみた。綺麗に数式が出るのはいいが、エスケープがめんどくて辟易。

\(\hat{p} \pm z^* SE_{\hat{p}} \)
- \(ME = z^* SE_{\hat{p}} \)
- \( \hat{p} \)の値どうするか
  - 前の研究で得た値があるならそれを使う　そうでなければ0.5とする

例題: アメリカ人と、Coursera受講者との間で、銃を禁止する法律への賛成率に違いがあるか？
信頼区間; \( (\hat{p}_1 - \hat{p}_2) \pm z^* SE_{\hat{p}_1 - \hat{p}_2} \)
- \( SE = \sqrt{ \frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \)

pooled proportion
- H0: p1 = p2
- \( \hat{p}_{pool} = \frac{total successes}{total n} \)
confidence interval(observed): \(\hat{p}_1, \hat{p}_2\)を使う
hypothesis test(expected): \(\hat{p}_{pool}\)を使う

3つ以上のレベルを持つ一つのカテゴリカルデータの分布を評価するためのテスト
例：陪審員の選択方法に、人種のバイアスはあるか？
- 人口における人種の割合はわかっているとする
goodness of fit: 観察されたデータが、予想される分布に、どれだけよくfitしているかを評価するという意味
chi-square testのための条件
- 独立性
  - random sample/assignment
  - もしsampling without replacementなら n < 10% of population
  - それぞれのcase(?)は、テーブルの一つのセルにのみ寄与する
- サンプルサイズ
  - どのシナリオ(cell)も少なくとも5のexpected caseをもつ
chi-square 統計量
- \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
  - O: observed
  - E: expected
  - k: セルの数
chi-square distribution
- 自由度 df = k - 1 (kはセルの数)
- kが小さいほどleft-skewed
p-value 　　* カイ二乗分布のtail areaの面積

2つのカテゴリカルデータの間の関連性の有無を評価するためのテスト
- 例: Weightとrelationshipは独立か否か？
Chi-square test of independence
- \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
- df = (R - 1) * (C - 1) (R, CはRowとColumnの数)
計算例
- obese / not obese の全体の割合を計算 → 0.256 or 0.744
- datingな440人の中でobeseな人の割合： 440人 * 0.256 ≒ 113人
- cohabitingな〃: 429人 * 0.256 ≒ 110人
- cohabitingな〃: 424人 * 0.256 ≒ 108人

こないだ提案したResearch Questionに対して、実際に検定をしてみた結果をレポートにまとめた。今回はそれなりに気合を入れて作ったので、レビュワーに地雷を踏んでしまったと思わせることはないはず。