CourseraのData Analysis and Statistical Inference Week 7


このエントリーをはてなブックマークに追加

Data Analysis and Statistical Inference | Coursera Week 7の受講メモ。今週は数値データと数値データとの関連性を扱う。具体的には線形回帰。

Video

correlation

  • correlation coefficient
    • 2つのnumerical variableの結合の強さを表す
    • 絶対値が大きいほど相関が強い
    • 正なら正の相関、負なら負の相関
    • -1~1
    • 無次元数
    • X軸とY軸を入れ替えても値同じ
    • outlierに敏感

residuals

  • residual = observed value - predicted value

least squares line

  • 最小二乗法
  • 傾きのことをslope, y切片のことをinterceptと呼ぶ
  • slope: \( b_1 = \frac{s_y}{s_x}R \)
    • s_x: SD of x
    • s_y: SD of y
    • R: cor(x,y)
  • 切片
    • 直線が、xの平均とyの平均を必ず通ることから求められる
    • intercept: \( b_0 = \bar{y} - b_1 \bar{x} \)

R2

  • R2
    • linear modelのfitの強さを測る指標
    • correlation coefficientの二乗
    • response variableのvariabilityのうち何パーセントを説明しているかを表す

Categorical Explanatory Variableesに対するregression

  • 2レベルの場合
    • 例: eastなら0, westなら1と決める
  • 4レベルの場合
    • 例: poverty = 9.50 + 0.03 * midwest + 1.79 * west + 4.16 * south
    • midwestのpovertyを計算する場合は、midwest = 1として他のを0にして求める

outlierの扱い方

  • outlierの2つのタイプ
    • leverage points: 点群から離れたところにあるが、slopeに影響を与えないoutlier
    • influential points: slopeに影響を与えるoutlier
  • outlierが1点加わるだけでR2が急激に良い値になってしまうことがあるので注意

inference for linear regression

  • slopeに対する検定
    • H0: slopeの傾きが0(beta_1 = 0)
    • HA: slopeの傾きが非0(beta_1 ≠ 0)
    • t-statisticsを使う
      • \( T = \frac{point estimate - null value}{SE} = \frac{b_1 - 0}{SE_{b_1}} \)
        • df = n - 2
          • パラメータが2個あるので-2する
    • 実はTの値とp-valueの値は、Rで線形回帰すると表にすでに出てる
    • slopeのconfidence interval
      • point estimate ± margin of error
      • \( b_1 \pm t^*_{df} SE_{b1} \)
  • interceptに対する検定はめったにさなされない

variability partitioning

  • t検定は、xとyの間の関係を表すslopeに対する仮説検定が目的だった
  • ANOVAは、xによって説明されるyのvariabilityを分割する(??)
  • anova output
    • sum of squares
      • explained valiability in y = total variability in y - unexplained variability in y(redisuals)
    • degrees of freedom
      • total degree of freedom: sample size - 1
      • regression degrees of freedom: 1
      • residual degrees of freedom - total .. - regression ..
    • mean squares
      • mean square regression: MS_reg =SS_reg / df_reg
      • mean square residual = MS_res = SS_res / df_res
    • F statistic: ratio of explained to unexplained variability