くずきのblog

技術とか色々

Think Stats(第2版)を読む:1章

最近、統計処理について詳しくなろうと考えていたところThink Stasをオススメされたので、メモがてら勉強した事を書いていこうと思う。(今回は1章のみ内容)

Think Stats 第2版 ―プログラマのための統計入門 | Allen B. Downey, 黒川 利明, 黒川 洋 |本 | 通販 | Amazon

2015年ごろに第2版が出版されて内容が多少変わっているので買う人は気をつけておこう。

1章: 探索的データ解析

統計処理をして行く上での流れだったり、Pythonなどの使い方がメインの話になっている。
内容としては、「第一子の出産は予定日よりも遅れることが多いか」についての議題。

事例証拠(anecdotal evidence)

雑談で出てくるような、「私たちはこうだから、絶対こうなる」や「友達たちはこうだったからこうである」のような個人的な経験のデータに基づいている、未公表の報告のことを言う。以下の理由から説得力がないため失格とのこと。

  • 小さすぎる標本数
    • 調べる人数が少ないとダメ
  • 選択バイアス
    • あることに関心を持ちすぎて、データの選択方法が結果を歪める
  • 確証バイアス
    • ある説を信じしてる人はその例ばかり提供してしまう(逆も然り)
  • 不正確さ
    • 人は忘れるものだ

統計的なアプローチ

事例証拠がだめならじゃあどうすればいいのか?
そんな時こそ統計を使おう!!ということで以下のようなやり方がある。

  • データ収集
    • ある程度のデータを集める(全米データとか)
  • 記述統計学
    • データの特性を簡潔に示すような統計値を求める
  • 探索的データ解析
    • 問題に対して、有用なデータのパターンや差やその他の特徴を探す
  • 推定
    • 標本から得られたデータを使用して、母集団の特徴を推定
  • 仮説検証
    • 偶然の結果じゃないのかを確認する

調査方法

調査方法には主に2種類ある。

  • 横断的調査
    • ある時点における母集団のデータを調査する方法
  • 縦断的調査
    • ある母集団を長期的に、繰り返して行う調査方法

ある問題に対して、どちらの調査が適切かを見極めるのが大切になる。

メリットデメリットについてはここら辺参考になる。

psycologystudy.blog.fc2.com

DataFrameを扱う

Pythonには、データをRDBcsvのように扱いやすくするためのPandasというライブラリがある。
この章では、データをインポートしたあたりからは黙々とデータフレームの表示とか加工をしていくことになるので、軽く他のサイトとかで勉強してもいいと思う。

参考になったサイト。

dev.classmethod.jp

qiita.com

終わりに

  • 最初の知識以外はほとんどPandasをいじってるだけだった
  • Pandas自体は、色々な機械学習ライブラリであまり対応していないため最近下火?(事例証拠です笑)
  • 色々な用語が出てくるため、この章でしっかり覚えておくと進めやすそう