Data Analysis and Statistical Inference | Coursera Week 7の受講メモ。今週は数値データと数値データとの関連性を扱う。具体的には線形回帰。
Video
correlation
- correlation coefficient
- 2つのnumerical variableの結合の強さを表す
- 絶対値が大きいほど相関が強い
- 正なら正の相関、負なら負の相関
- -1~1
- 無次元数
- X軸とY軸を入れ替えても値同じ
- outlierに敏感
residuals
- residual = observed value - predicted value
least squares line
- 最小二乗法
- 傾きのことをslope, y切片のことをinterceptと呼ぶ
- slope: \( b_1 = \frac{s_y}{s_x}R \)
- s_x: SD of x
- s_y: SD of y
- R: cor(x,y)
- 切片
- 直線が、xの平均とyの平均を必ず通ることから求められる
- intercept: \( b_0 = \bar{y} - b_1 \bar{x} \)
R2
- R2
- linear modelのfitの強さを測る指標
- correlation coefficientの二乗
- response variableのvariabilityのうち何パーセントを説明しているかを表す
Categorical Explanatory Variableesに対するregression
- 2レベルの場合
- 例: eastなら0, westなら1と決める
- 4レベルの場合
- 例: poverty = 9.50 + 0.03 * midwest + 1.79 * west + 4.16 * south
- midwestのpovertyを計算する場合は、midwest = 1として他のを0にして求める
outlierの扱い方
- outlierの2つのタイプ
- leverage points: 点群から離れたところにあるが、slopeに影響を与えないoutlier
- influential points: slopeに影響を与えるoutlier
- outlierが1点加わるだけでR2が急激に良い値になってしまうことがあるので注意
inference for linear regression
- slopeに対する検定
- H0: slopeの傾きが0(beta_1 = 0)
- HA: slopeの傾きが非0(beta_1 ≠ 0)
- t-statisticsを使う
- \( T = \frac{point estimate - null value}{SE} = \frac{b_1 - 0}{SE_{b_1}} \)
- df = n - 2
- パラメータが2個あるので-2する
- df = n - 2
- \( T = \frac{point estimate - null value}{SE} = \frac{b_1 - 0}{SE_{b_1}} \)
- 実はTの値とp-valueの値は、Rで線形回帰すると表にすでに出てる
- slopeのconfidence interval
- point estimate ± margin of error
- \( b_1 \pm t^*_{df} SE_{b1} \)
- interceptに対する検定はめったにさなされない
variability partitioning
- t検定は、xとyの間の関係を表すslopeに対する仮説検定が目的だった
- ANOVAは、xによって説明されるyのvariabilityを分割する(??)
- anova output
- sum of squares
- explained valiability in y = total variability in y - unexplained variability in y(redisuals)
- degrees of freedom
- total degree of freedom: sample size - 1
- regression degrees of freedom: 1
- residual degrees of freedom - total .. - regression ..
- mean squares
- mean square regression: MS_reg =SS_reg / df_reg
- mean square residual = MS_res = SS_res / df_res
- F statistic: ratio of explained to unexplained variability
- sum of squares