CourseraのData Analysis and Statistical Inference Week 8


このエントリーをはてなブックマークに追加

Data Analysis and Statistical Inference | Coursera Week 8の受講メモ。今週はmultiple linear regression(重回帰分析)を扱う。検定以降の節はほとんど理解できていない。

Video

Unit 7 Part 1(1) Multiple Predictors

  • 例: 本の重さを、ページ数と、カバーの種類とから推測する
    • Rで分析
      • book_mlr = lm(weight ~ volume + cover, data = allbacks)
      • summary(book_mlr)
    • 重回帰分析では、カバーの種類をどちらに固定した場合でも、本の重さを表すスロープは同じだと仮定する
    • もしそれがreasonableでなければ、interaction variableというのを導入する

Unit 7 Part 1(2) Adjusted R Squared

ぜんぜん分からん…

  • pairwise scatter plot
  • R2 = explained variability / total variability
  • adjusted R2 = 1 - ( SSE/SST * (n-1)/(n-k-1) )
  • R2は、どんな変数がモデルに加わっても増える
  • adjusted R2は、その変数が情報をもたらさなければ、増えない

Unit 7, Part 1: (3) Collinearity and Parsimony (3:34)

  • colinearity
    • 2つのpredictor variableが互いに関連しているとき、colinearとよぶ
  • parsimony(極度の倹約、けち)
    • シンプルでベストなモデルを選ぶこと
    • parsimonious model

Unit 7, Part 2: (1) Inference for MLR

わからない…

  • モデル全体に対する推論(?)
    • H0: β1 = ... = βk = 0
    • HA: 少なくともひとつのβi が0でない
    • F-statistic?
  • 傾きに関する推論
    • H0: β1 = 0, 他の変数がすべてモデルに含まれるとするとき
    • HA: β1 ≠ 0, 他の変数がすべてモデルに含まれるとするとき
    • T = (point estimate(b1) - null value) / SE = (b1 - 0) / SE
      • df = n - k - 1(kはパラメータ数)

Unit 7, Part 3: (1) Model Selection

  • モデルの選び方
    • backwords elimination
      • 変数の数を少なくしていく
    • forward selection
      • 変数の数を増やしていく
    • criteria
      • p-value, adjusted R2, AIC, ...
  • 講義ではp-valueとadjusted R2を使う例を紹介

Unit 7, Part 4: (1) Diagnostics for MLR

  • (1) (numerical)x と y の間の線形な関係
    • residual plotを描いてみる
      • 点が0のラインの前後に散らばっているか?
      • plot(cog_final$residuals ~ cognitive$mom_iq)
  • (2) nearly normal residuals with mean 0
    • skewがないか?
    • ヒストグラムか、normal probability plotを描いてみる hist(), qqnorm(), qqline()
  • (3) constant variability of residuals
    • ちらばり具合は左の方と右のほうとで同じか?(fanはないか?)
    • y軸の絶対値をとったグラフを描くのも良い方法
  • (4) independent residuals
    • データの集め方に問題はないか? 時系列でパターンができていないか?

R

  • jitter(): わずかにノイズを加えて、点のプロット位置をずらす