いっきのblog

技術とか色々

Think Stats(第2版)を読む:3章 確率質量関数

前回の続き。(100日ぶり)

kzkohashi.hatenablog.com

3章:確率質量関数

PMF

確率質量関数のことは英語でPMF(probability mass function)という。
各値ごとに確率が計算され、紐づけられている状態。高校の頃、あるサイコロの目がどの確率でるか・・とやった思い出が微妙にあるけど、それのことだ。
サイコロの1の目と2の目の間には連続した数値はないので、こういった確率変数のことを「離散型」と呼ぶ。また、確率の約束としては全ての確率を足せば「1」になるとだけ覚えておけばいい。

例では、一人めの子供の妊娠周期(濃い青)と二人め以降の子供の妊娠期間(水色)を確率にして棒グラフで表示した。

f:id:kzkohashi:20180728222230p:plain

離散型の分布にもいくつか種類があったり、連続型もあったりするので以下がとても参考になった。

qiita.com

ちなみに、本には「確率は出現度数を標本サイズnで割合したもの」と頭良く書いてあったので覚えておこうと思う。

ヒストグラムPMF以外の可視化

ここまで2章でヒストグラムPMFで可視化してきた。この2つのやり方は「データを探索してパターンや関係を同定しようと試みる上では有用」だが、より細かく特徴を見たりする際には色々工夫が必要とのこと。
さきほどのグラフをみると、35週目から46週目あたりで週ごとに差があることがわかる。一人目の妊娠と二人目以降の妊娠で確率の差を表してみると以下のように一人めの妊娠は41週目以降に生まれる確率の方がたかそうに見える。

f:id:kzkohashi:20180728223356p:plain

このように、まずはヒストグラムPMFなどのグラムで何が起こってるのかがわかれば、見つけたパターンをより明確に可視化する方法を検討できる方法につなげることができる。データサイエンティストの知り合いもまずは全体がわかるようなデータを可視化し、そこからどういう傾向があるか?とか深掘りしていってたので、その通りなんだなと思う。

ただこの本には、基本的にデータの偏りなどもあったり、偶然だったりする場合もあるので簡単に結論づけないようにしたほうがいいとのことだ。

クラスサイズのパラドックス

アメリカの大学では生徒対教師の比率が10:1となっているらしいが、実際に生徒に調べてもらったりすると生徒の比率の方がもっと高い割合になるデータになる。僕的にももっと生徒の比率の方が高くなるだろ・・と思うのだが、それこそがパラドックスである。

そもそもパラドックスとはなにかというと

パラドックス(paradox)とは、正しそうに見える前提と、妥当に見える推論から、受け入れがたい結論が得られる事を指す言葉である。逆説、背理、逆理とも言われる。 パラドックス - Wikipedia

ふむふむ、ようわからん・・・と思い続けて読んでみると

正しい仮定と正しい推論から正しい結論を導いたにも拘らず、結論が直観に反する ものも「パラドックス」と呼ばれる。これは擬似パラドックスと呼ばれ、前述した「真の」パラドックスとは別物である。 例えば誕生日のパラドックスは擬似パラドックスとして知られる。これは「23人のクラスの中に誕生日が同じである2人がいる確率は50%以上」というもので、数学的には正しい事実だが、多くの人は50%よりもずっと低い確率を想像する。他にもヘンペルのカラス、バナッハ・タルスキの逆理などが擬似パラドックスとして知られる。

この擬似パラドックスに近い感覚なのかな?と思う。
これは観察者におけるバイアスがかかってる場合があるということで、そのバイアスを計算する方法だったり、逆にバイアスを戻す方法なども紹介していた。(計算長くなるのでここではやらない)

調べていくうちに、これは観察者バイアスのことでもあるのかなと思い一応メモっておく。

関連する社会科学用語として観察者バイアス(英: observer bias 心理学用語では実験者効果)がある。これは、観察者が見出すことを期待している行動を強調しすぎて、それ以外の行動に気づかないという測定における誤差である。医学の試験で単盲検法ではなく二重盲検法が使われるのはこのためである。観察者バイアスは、研究者が行動を見てその意味を解釈しても、その行動をした本人にとっては何か別の意味があるという場合にも生じる。

観察者効果 - Wikipedia

観察者バイアスは、例えば他人が失敗した際に「努力が足りない、自業自得」と思うにも関わらず、自分が失敗すると「周りの環境が悪い、自分の能力不足のせいではない」というバイアスがかかってしまうことである。めちゃくちゃわかる。
自分を客観視してみる・・というのはこのバイアスを意識し、バイアスから抜けれた時なのかと思うと・・・やっぱり瞑想するしかないのではないかと思う。

それとパラドックスを色々まとめてくれてる面白いサイトがあったので貼っておく。 atarimae.biz

終わりに

今回の章は新しい用語が少なかったが、パラドックスの部分がなかなか理解できず時間をくった。