こないだ受講終了したMachine Learning | Coursera(Gradingは99.9%。もう少しクイズを頑張っていれば満点だったが…)に引き続き、Data Analysis and Statistical Inference | Courseraを受講開始。
Week 1では、Videoによる学習と、Rの練習を行った。
Video
以下はVideoの自分用メモ。怪しいのであまり信用しないでほしい。
- データの基礎
- numerical data vs. categorical data
- observational study vs. experiment
- この辺、日本語の解説がWebにあまりなくてよくわからない
- 前者では、被験者(subject)をどのようにグループ分けするかをコントロールできない?
- 後者では、逆に、グループ分けのコントロールが可能?
- confounding variable(交絡変数?)の話
- explanatory varibleとresponse variableの両方に影響を与える変数のこと(?)
- 2つの変数間に相関があるからといって、因果関係もあるとは限らない、という話だと思われる
- データのサンプリングの話
- simple random sample, stratified sample, cluster sample
- 全然理解できてない
- データの可視化
- scatterplots(散布図)
- histogram
- 左に裾野が伸びたヒストグラムをleft skewedと言う right skewedはその逆
- unimodal / bimodal / uniform / multimodal
- dotplot
- box plot(箱ひげ図)
- medianを中心とした50%をIQRと呼ぶ
- mean / median
- variance, sd
- 分散が大きいことをvariabilityが大きいとも言うらしい
- log transformation
- カテゴリカル変数の可視化
- bar plot
- pie chartよりbar plotの方がおすすめらしい(?)
- contingency table(分割表)
- 2つ以上の変数の間の関係を表すテーブル
- 相対頻度で表すことも
- segmented bar plot
- relative frequency segmented bar plot
- mosaicplot
- 初めて見た
- bar plot
Rの練習
Rの練習は、DataCamp - Learn Data Analysis Onlineというサイトで、ドリル形式で行われる。同じコマンドを何度も打つことになるので、さすがによく使うRのコマンドは(一時的にせよ)覚えることができた。
感想
毎週の作業量が多く、早くも挫折しそう。今後、自分でデータ分析のプロジェクトを提案するとかいう重そうな課題もあるようなので、完走できる自信なし。