Data Analysis and Statistical Inference | CourseraのWeek 2を引き続き受講。今週は高校でも習うような確率の基本的な話の復習から始まり、正規分布と二項分布を扱った。
Video
確率のイントロ
- gambler's fallacy
- disjoint events(背反事象)
- mutually exclusiveともいう。同時に起こらない事象のこと
- general addition rule
- P(A or B) = P(A) + P(B) - P(A and B)のこと
- complementary events(余事象)
- independence events
- conditional probability(条件付き確率)
- Bayes' theorem
- 単なる条件付き確率の定義式がBayes' theoremとして紹介されているような…? * Byaesian inference
- 新しいデータを入手するためにpriorを更新する
正規分布
- OkCupidというデーティングサービスの提供サイトでの男性の身長の分布: US平均の分布よりも少し高い方にシフトしている!
- 68% - 95% - 99.7% rule
- standardized (Z) score
- (observation - mean) / SD
- このスコアの表を使ってpercentileを計算できる
binomial distribution(二項分布)
- binomial distribution
- コインをn回投げてk回表が出る確率
- 平均: μ=np
- 標準偏差: sqrt(np(1-p))
- Normal Approximation(正規近似) to Binomial
- success-failure rule
- np >= 10, n(1-p) >= 10のときに正規近似が使えるというルール
Rの演習
- バスケットボールの選手が連続して得点を決める "hot hands"という現象を題材にした課題
1985年に出た論文では、各ショットは独立な事象だと結論づけられたらしい
load(url("http://somewhere"))
- urlにあるデータをロード
- head(data)
- dataの上の方をヘッダ付きでprint
- names(data)
- データフレームの変数名を表示
- data$val
- データフレームの"val"という変数のコラムだけ表示
- data$val[1:10]
- 上の10個分だけ表示
- table(data)
- dataに登場する数字と、その頻度からなるテーブルを作ってくれる
- barplot(table_data)
- 頻度テーブルからバーをプロット
- c(100, 200, 300)
- 1次元のデータセット(ベクトル)を生成
- sample(balls, size=1, replace=TRUE, prob=c(0.3, 0.7))
- サンプル抽出をシミュレーション
- e.g. ballsはボール(例えばc("red", blue"))。
- sizeは取り出す回数。
- replaceがTRUEなら復元抽出(取り出したボールを元に戻す)
- probはボールが取り出される確率。デフォルトでは当確率
Project演習
自分でリサーチクエスチョンを提案する課題の締め切りが3/10だった。埋める欄が多く、あまりよく理解できていないところは適当に書いてしまった…。ピアレビューで当たった人には申し訳ない。