CourseraのData Analysis and Statistical Inference Week 2


このエントリーをはてなブックマークに追加

Data Analysis and Statistical Inference | CourseraのWeek 2を引き続き受講。今週は高校でも習うような確率の基本的な話の復習から始まり、正規分布と二項分布を扱った。

Video

確率のイントロ

  • gambler's fallacy
  • disjoint events(背反事象)
    • mutually exclusiveともいう。同時に起こらない事象のこと
  • general addition rule
    • P(A or B) = P(A) + P(B) - P(A and B)のこと
  • complementary events(余事象)
  • independence events
  • conditional probability(条件付き確率)
  • Bayes' theorem
    • 単なる条件付き確率の定義式がBayes' theoremとして紹介されているような…? * Byaesian inference
    • 新しいデータを入手するためにpriorを更新する

正規分布

  • OkCupidというデーティングサービスの提供サイトでの男性の身長の分布: US平均の分布よりも少し高い方にシフトしている!
  • 68% - 95% - 99.7% rule
  • standardized (Z) score
    • (observation - mean) / SD
    • このスコアの表を使ってpercentileを計算できる

binomial distribution(二項分布)

  • binomial distribution
    • コインをn回投げてk回表が出る確率
    • 平均: μ=np
    • 標準偏差: sqrt(np(1-p))
  • Normal Approximation(正規近似) to Binomial
    • 試行回数nを増やすと正規分布に近づくという話
    • 正規分布でZスコアを求めるときに0.5ずらすテクニック
  • success-failure rule
    • np >= 10, n(1-p) >= 10のときに正規近似が使えるというルール

Rの演習

  • バスケットボールの選手が連続して得点を決める "hot hands"という現象を題材にした課題
  • 1985年に出た論文では、各ショットは独立な事象だと結論づけられたらしい

  • load(url("http://somewhere"))

    • urlにあるデータをロード
  • head(data)
    • dataの上の方をヘッダ付きでprint
  • names(data)
    • データフレームの変数名を表示
  • data$val
    • データフレームの"val"という変数のコラムだけ表示
  • data$val[1:10]
    • 上の10個分だけ表示
  • table(data)
    • dataに登場する数字と、その頻度からなるテーブルを作ってくれる
  • barplot(table_data)
    • 頻度テーブルからバーをプロット
  • c(100, 200, 300)
  • sample(balls, size=1, replace=TRUE, prob=c(0.3, 0.7))
    • サンプル抽出をシミュレーション
    • e.g. ballsはボール(例えばc("red", blue"))。
    • sizeは取り出す回数。
    • replaceがTRUEなら復元抽出(取り出したボールを元に戻す)
    • probはボールが取り出される確率。デフォルトでは当確率

Project演習

自分でリサーチクエスチョンを提案する課題の締め切りが3/10だった。埋める欄が多く、あまりよく理解できていないところは適当に書いてしまった…。ピアレビューで当たった人には申し訳ない。