CourseraのData Analysis and Statistical Inference Week 5

Data Analysis and Statistical Inference | CourseraのWeek 5の自分用受講メモ。Week 4は中間試験のためなし。

Video

paired dataの検定

paired dataの例: 各学生のreadの成績データとwriteの成績データ
これらの平均値に差があるかどうか検定するには、各データの差に対して検定を行う

独立した集合のそれぞれの平均の検定

numerical変数とcategorical変数の関係を見るにはside-by-side box plotsが便利
学歴をcollege degreeとno college degreeにわけて、労働時間に差があるか調べる
以下がなりたつ
- point estimate ± margin of error
- (x1 bar - x2 bar) ± z* * SE
- SE = sqrt( s1² / n1 + s2² / n2)

bootstrapping

medianは、meanと違ってCLT(中心極限定理)が使えない -> bootstrappingを使う
bootstrapping
- 与えられた一つのサンプルから、シミュレーションにより統計値を求める方法
- 以下を何度もシミュレーションする
  - bootstrap sampleを抽出（与えられたサンプルから、そのサンプルと同じ数だけ、復元抽出ありでサンプリング)
  - bootstrapの統計量を計算
- 信頼区間を求めるには以下の2つの方法がある
  - (1)percentile method: bootstrap dist. の真ん中の95%をとる
  - (2)standard error method: bootstrap dist. の平均を求め、その前後1.96*SEをとる

t分布

サンプルのサイズが小さいときの話
サンプルサイズnが小さく、σが不明なときは、t分布を使う
- 正規分布よりも少し分散が大きい形をした分布
t分布
- degrees of freedom(df)ちおうパラメータを持つ
- dfが小さいほど分散が大きい
- dfが大きいほど分散が小さく、正規分布に近づく
t-statistic
- σが未知でn < 30のとき使う
- T = (obs - null) / SE
  - これはZ scoreと似たような計算
- p-value
  - 前と同じ定義
Student t分布という名前の由来
- ギネスに勤めていたWilliam Gossetという人が論文発表のときに使った偽名であるStudentに由来

t分布を使った平均値の検定

例
- 昼食時にゲームをしたグループとしないグループとで、食後の間食の量が増えるかどうかという実験
- blocking: ２つのグループとで、男性の数と女性の数が同数になるようにしている
df(degrees of freedom) = n - 1とする
confidence intervalは point estimate ± margin of error で求める
- x bar ± t_df* * (s/sqrt(n))
- margin of error は t_df* * (s/sqrt(n))
Rのqt()関数を使うとt_df*(critical t score)の値が求められる
- 例：qt(0.975, df = 21)とすると2.08と求まる
Rのpt()はその逆で、t関数のパーセンタイルを求める関数
- 例：qt(2.30, df = 21)
- lower.tail = FALSEオプションを使うと、1から引いた値になる

t分布を使った２つのグループの平均値の比較

SE = sqrt(s1² / n1 + s2² / n2)
信頼区間: (x1 bar - x2 bar) ± t_df* * SE
df = min(n1-1, n2-1)

2つより多いグループの平均値の比較

例
- 自己申告した階級と、知ってる単語の数との関係を調べたサーベイ
side-by-side box plotを描いてみる
ANOVA
- analysis of varianceの略
- 3個以上のグループの平均を比較するのに使う
- H0: すべてのグループの平均が同じ
- HA: すくなくとも一つのペアについて平均が異なる
- Z or t testでは
  - z or t = {(x1 bar - x2 bar) - (μ1 - μ2)}/SE
- ANOVAでは
  - F = variability between groups / variability within groups
  - H0を棄却するためには大きなFが必要

ANOVAの計算例

SST(sum of squares total) = 平均値との差の二乗和
SSG(sum of squares gropus) = グループの平均と、すべての平均との差の二乗和を、グループの数で重み付け
SSE(sum of squares error) = SST - SSG
df_T = n - 1
df_G = k - 1
df_E = df_T - df_G
MSG = SSG / df_G
MSE = SSE / df_E
F = MSG / MSE
Fカーブ: df_Gとdf_Eがパラメータ
詳しい計算方法はビデオを参照

ANOVAの条件

独立性
- グループ内、グループ間で独立性が必要
グループ内の分布がほぼ正規分布である
各グループはほぼ同じ分散をもつ
- いいかえるとhomoscedastic(等分散的)である

multiple comparisons(多重比較?)

グループのペア間で検定することをmultiple comparisonsとよぶ
Bonferroni correction
- α(significance level)の値を、比較の数によって調整すること
- α* = α / K (K: 比較の数)
multiple pairwise comparisonsのSE
- SE = sqrt( MSE/n1 + MSE/n2 )

R

bootstrapとANOVAの実習。前者はノースカロライナ州で生まれた子供に関するデータ、後者は語彙と社会階級との関係を示すデータを用いる。

NAを除去
- na.omit(a_data_set)
空リスト生成
- rep(NA, 100)
サイズnのサンプルを生成(replacementあり) 　　* sample(list, n, replace=TRUE)
bootstrapを行う関数（講義で用意された関数）
- inference(nc$gained, type = "ci", method = "simulation", conflevel = 0.9, est = "mean", boot_method = "perc")
グループの平均を出す
- by(nc$weight, nc$habit, mean)
平均に差があるかテスト
- inference(y = nc$weight, x = nc$habit, est = "mean", type = "ht", null = 0, alternative = "twosided", method = "theoretical")

語彙テスト

講義でANOVAの例として示された英単語の語彙テスト(WORDSUM)がかなり難しかった。問題がWORDSUM IQ Test - XNXX Adult Forumに載っていたので以下に転載する。

A. SPACE 1. school 2. noon 3. captain 4. room 5. board 6. don’t know
B. BROADEN 1. efface 2. make level 3. elapse 4. embroider 5. widen 6. don’t know
C. EMANATE 1. populate 2. free 3. prominent 4. rival 5. come 6. don’t know
D. EDIBLE 1. auspicious 2. eligible 3. fit to eat 4. sagacious 5. able to speak 6. don’t know
E. ANIMOSITY 1. hatred 2. animation 3. disobedience 4. diversity 5. friendship 6. don’t know
F. PACT 1. puissance 2. remonstrance 3. agreement 4. skillet 5. pressure 6. don’t know
G. CLOISTERED 1. miniature 2. bunched 3. arched 4. malady 5. secluded 6. don’t know
H. CAPRICE 1. value 2. a star 3. grimace 4. whim 5. inducement 6. don’t know
I. ACCUSTOM 1. disappoint 2. customary 3. encounter 4. get used to 5. business 6. don’t know
J. ALLUSION 1. reference 2. dream 3. eulogy 4. illusion 5. aria 6. don’t know

答は順に4, 5, 5, 3, 1, 3, 5, 4, 4, 1らしい。自分が自身を持って答えられたのはspace, broaden, edible, pact, accustomだけ。