Data Analysis and Statistical Inference | Coursera Week 8の受講メモ。今週はmultiple linear regression(重回帰分析)を扱う。検定以降の節はほとんど理解できていない。
Video
Unit 7 Part 1(1) Multiple Predictors
- 例: 本の重さを、ページ数と、カバーの種類とから推測する
Unit 7 Part 1(2) Adjusted R Squared
ぜんぜん分からん…
- pairwise scatter plot
- R2 = explained variability / total variability
- adjusted R2 = 1 - ( SSE/SST * (n-1)/(n-k-1) )
- R2は、どんな変数がモデルに加わっても増える
- adjusted R2は、その変数が情報をもたらさなければ、増えない
Unit 7, Part 1: (3) Collinearity and Parsimony (3:34)
- colinearity
- 2つのpredictor variableが互いに関連しているとき、colinearとよぶ
- parsimony(極度の倹約、けち)
- シンプルでベストなモデルを選ぶこと
- parsimonious model
Unit 7, Part 2: (1) Inference for MLR
わからない…
- モデル全体に対する推論(?)
- H0: β1 = ... = βk = 0
- HA: 少なくともひとつのβi が0でない
- F-statistic?
- 傾きに関する推論
- H0: β1 = 0, 他の変数がすべてモデルに含まれるとするとき
- HA: β1 ≠ 0, 他の変数がすべてモデルに含まれるとするとき
- T = (point estimate(b1) - null value) / SE = (b1 - 0) / SE
- df = n - k - 1(kはパラメータ数)
Unit 7, Part 3: (1) Model Selection
- モデルの選び方
- backwords elimination
- 変数の数を少なくしていく
- forward selection
- 変数の数を増やしていく
- criteria
- p-value, adjusted R2, AIC, ...
- backwords elimination
- 講義ではp-valueとadjusted R2を使う例を紹介
Unit 7, Part 4: (1) Diagnostics for MLR
- (1) (numerical)x と y の間の線形な関係
- residual plotを描いてみる
- 点が0のラインの前後に散らばっているか?
- plot(cog_final$residuals ~ cognitive$mom_iq)
- residual plotを描いてみる
- (2) nearly normal residuals with mean 0
- skewがないか?
- ヒストグラムか、normal probability plotを描いてみる hist(), qqnorm(), qqline()
- (3) constant variability of residuals
- ちらばり具合は左の方と右のほうとで同じか?(fanはないか?)
- y軸の絶対値をとったグラフを描くのも良い方法
- (4) independent residuals
- データの集め方に問題はないか? 時系列でパターンができていないか?
R
- jitter(): わずかにノイズを加えて、点のプロット位置をずらす