Data Analysis and Statistical Inference | CourseraのWeek 6の受講メモ。今週はカテゴリカルデータに関する検定などもろもろ。目的と、そのための手法がいくつも紹介されて、正直消化不良気味。
今週からMathJaxを使って数式を表示してみた。綺麗に数式が出るのはいいが、エスケープがめんどくて辟易。
Video
CLT for proportions
- \( \hat{p} \sim N(mean = p, SE = \sqrt{\frac{p(1-p)}{n}}) \)
- CLTのための条件
独立性
- random sample / assignment
- replacementなしの場合、n < 10% population ランダムサンプリング / アサインメント
サンプルサイズ
- 少なくとも10個のsuccessとfailureが含まれること
- np >= 10 and n(1-p) >= 10
- pがわからなければ\(\hat{p}\)をかわりに使う
- 少なくとも10個のsuccessとfailureが含まれること
信頼区間
- \(\hat{p} \pm z^* SE_{\hat{p}} \)
- \(ME = z^* SE_{\hat{p}} \)
- \( \hat{p} \)の値どうするか
- 前の研究で得た値があるならそれを使う そうでなければ0.5とする
2つのproportionを比べる
- 例題: アメリカ人と、Coursera受講者との間で、銃を禁止する法律への賛成率に違いがあるか?
- 信頼区間; \( (\hat{p}_1 - \hat{p}_2) \pm z^* SE_{\hat{p}_1 - \hat{p}_2} \)
- \( SE = \sqrt{ \frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \)
2つのproportionを比較する仮説検定
- pooled proportion
- H0: p1 = p2
- \( \hat{p}_{pool} = \frac{total successes}{total n} \)
- confidence interval(observed): \(\hat{p}_1, \hat{p}_2\)を使う
- hypothesis test(expected): \(\hat{p}_{pool}\)を使う
サンプルサイズが小さいときのproportion
- H0仮説が正しいとしてシミュレーションを何度も行い、p-valueを算出
サンプルサイズが小さいときの2つのproportionの比較
- 例: 手のひらの写真を見て自分のてのひらを選ぶ確率と、手の甲の
- H0: p_back - p_palm = 0 仮説が正しいとしてシミュレーションを何度も行い、p-valueを算出
Chi-Square GOF(Goodness of Fit) Test
- 3つ以上のレベルを持つ一つのカテゴリカルデータの分布を評価するためのテスト
- 例: 陪審員の選択方法に、人種のバイアスはあるか?
- 人口における人種の割合はわかっているとする
- goodness of fit: 観察されたデータが、予想される分布に、どれだけよくfitしているかを評価するという意味
- chi-square testのための条件
- 独立性
- random sample/assignment
- もしsampling without replacementなら n < 10% of population
- それぞれのcase(?)は、テーブルの一つのセルにのみ寄与する
- サンプルサイズ
- どのシナリオ(cell)も少なくとも5のexpected caseをもつ
- 独立性
- chi-square 統計量
- \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
- O: observed
- E: expected
- k: セルの数
- \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
- chi-square distribution
- 自由度 df = k - 1 (kはセルの数)
- kが小さいほどleft-skewed
- p-value * カイ二乗分布のtail areaの面積
Chi-Square Independence Test
- 2つのカテゴリカルデータの間の関連性の有無を評価するためのテスト
- 例: Weightとrelationshipは独立か否か?
- Chi-square test of independence
- \( \chi^2 = \sum_{i=1}^k \frac{(O-E)^2}{E} \)
- df = (R - 1) * (C - 1) (R, CはRowとColumnの数)
- 計算例
- obese / not obese の全体の割合を計算 → 0.256 or 0.744
- datingな440人の中でobeseな人の割合: 440人 * 0.256 ≒ 113人
- cohabitingな〃: 429人 * 0.256 ≒ 110人
- cohabitingな〃: 424人 * 0.256 ≒ 108人
Rメモ
- sum(dbinom(190:200, 200, 0.90))
- p=0.90の二項分布で、200回試行して190回~200回Yesになる確率
- pchisq(31.68, 2, lower.tail = FALSE)
- 自由度2のカイ二乗分布でのp-value
Project
こないだ提案したResearch Questionに対して、実際に検定をしてみた結果をレポートにまとめた。今回はそれなりに気合を入れて作ったので、レビュワーに地雷を踏んでしまったと思わせることはないはず。