minus9d's diary

CourseraのData Analysis and Statistical Inference Week 2

math

Data Analysis and Statistical Inference | CourseraのWeek 2を引き続き受講。今週は高校でも習うような確率の基本的な話の復習から始まり、正規分布と二項分布を扱った。

Video

確率のイントロ

gambler's fallacy
disjoint events(背反事象)
- mutually exclusiveともいう。同時に起こらない事象のこと
general addition rule
- P(A or B) = P(A) + P(B) - P(A and B)のこと
complementary events(余事象)
independence events
conditional probability(条件付き確率)
Bayes' theorem
- 単なる条件付き確率の定義式がBayes' theoremとして紹介されているような…？ *　Byaesian inference
- 新しいデータを入手するためにpriorを更新する

正規分布

OkCupidというデーティングサービスの提供サイトでの男性の身長の分布： US平均の分布よりも少し高い方にシフトしている！
68% - 95% - 99.7% rule
standardized (Z) score
- (observation - mean) / SD
- このスコアの表を使ってpercentileを計算できる

binomial distribution(二項分布)

binomial distribution
- コインをn回投げてk回表が出る確率
- 平均: μ=np
- 標準偏差: sqrt(np(1-p))
Normal Approximation(正規近似) to Binomial
- 試行回数nを増やすと正規分布に近づくという話
- 正規分布でZスコアを求めるときに0.5ずらすテクニック
success-failure rule
- np >= 10, n(1-p) >= 10のときに正規近似が使えるというルール

Rの演習

バスケットボールの選手が連続して得点を決める "hot hands"という現象を題材にした課題
1985年に出た論文では、各ショットは独立な事象だと結論づけられたらしい
load(url("http://somewhere"))
- urlにあるデータをロード
head(data)
- dataの上の方をヘッダ付きでprint
names(data)
- データフレームの変数名を表示
data$val
- データフレームの"val"という変数のコラムだけ表示
data$val[1:10]
- 上の10個分だけ表示
table(data)
- dataに登場する数字と、その頻度からなるテーブルを作ってくれる
barplot(table_data)
- 頻度テーブルからバーをプロット
c(100, 200, 300)
- 1次元のデータセット(ベクトル)を生成
sample(balls, size=1, replace=TRUE, prob=c(0.3, 0.7))
- サンプル抽出をシミュレーション
- e.g. ballsはボール(例えばc("red", blue"))。
- sizeは取り出す回数。
- replaceがTRUEなら復元抽出(取り出したボールを元に戻す)
- probはボールが取り出される確率。デフォルトでは当確率

Project演習

自分でリサーチクエスチョンを提案する課題の締め切りが3/10だった。埋める欄が多く、あまりよく理解できていないところは適当に書いてしまった…。ピアレビューで当たった人には申し訳ない。