いっきのblog

技術とか色々

Think Stats(第2版)を読む:4章 累積分布関数

前回に引き続き統計のお勉強。 kzkohashi.hatenablog.com

PMFの限界

前回、PMF(確率質量関数)を用いて、一人めの子供の妊娠周期(濃い青)と二人め以降の子供の妊娠期間(水色)を確率にして棒グラフで表示した。

f:id:kzkohashi:20180728222230p:plain

このように、PMFは値の個数が少ない時(ここでいうとweeksのこと)は可視化し、全体像を掴んだり比較するのに大変便利であった。
しかし、個数が増えると各値の確率が小さくなり、ランダムノイズの影響が大きくなる。

例えば、第一子と第二子の新生児の出生時体重の分布をPMFを用いて表示してみると、以下のようになる。

f:id:kzkohashi:20180812215556p:plain

どちらもの分布も正規分布のベル曲線にいているが、解釈が難しい。確率が低すぎる値なのであまり意味してないのと、どちらが平均値が高いのか?などがパッとわからない。
これらの問題を解決するために積分布関数(CDF)を使うといいっぽいので、やってみる。

パーセンタイル

CDFに入る前に、パーセンタイルについて説明する。
パーセンタイルは学生の時にテストの結果を受け取る際に、結果として用いられることが多い。

例えば、各5人のテスト結果が「55, 66, 77, 88, 99」点だとすると、自分が「88点」ならば、「100 * 4/5」でパーセントタイル順位は80となり、パーセントタイル値は88となる。そんなテスト結果の受けとりの仕方はしたことないけど、次に進もう。

積分布関数(CDF)

CDFは各値をパーセンタイル順位に対応づける関数とのこと。パーセンタイルと一緒じゃないか、と思ってたら、違いとしては以下になる。

パーセンタイル順位は結果が0 ~ 100の範囲に対して、CDFでは0 ~ 1の範囲の確率で表現する

例として、妊娠期間をCDFで表現すると以下のようなグラフが作成できる。

f:id:kzkohashi:20180812221551p:plain

X軸が妊娠週で、Y軸がCDFとなっている。このグラフの一つの読み方としては、パーセンタイル値を見つけるというものらしい。あまりよくわかってないが、続けて例をだしてくれていて、「約10%の妊娠が36週より短いこと」「90%が41週より短いこと」が見て取れるという言い方ができる。また、度数の高い値は急な落差になっているため、39週が最頻値であることが見て取れる。

CDFを比較する

いよいよ、先ほどPMFで表現した「第一子と第二子の新生児の出生時体重の分布」をCDFを使って表現する。

f:id:kzkohashi:20180812221955p:plain

図が荒くて若干見づらいが、第一子のほうが平均値がわずかにたかそうなのがわかる。ただ、図だとやっぱり最頻値などはぱっと見わからないんだなと思った。

パーセンタイル派生統計量

CDFを一旦計算すれば、パーセンタイル値とパーセンタイル順位の計算は容易とのこと(そりゃあそうだw)。
パーセンタイル派生要約統計量を計算するのに使える。例えば、50位パーセンタイル値は中央値(median)と呼ばれる。また、***四分位範囲(interquartile range, IQR)と呼ばれる分布の広がりの尺度も表せる。IQRは75位パーセンタイル値と25位パーセンタイル値との差。
一般的に、パーセンタイル値は分布の形状の要約によく用いられる。Wikipediaで詳しくは調べとけとのこと。

分位数 - Wikipedia

ここらへんは以前何かの講義受けた時に少しやったようなやってないような。

乱数

ここ少し省略すると、CDFの形状がなんであれ、パーセンタイル順位の分布は一様と言いたかった。

f:id:kzkohashi:20180812225456p:plain

だいたい直線に近くなるとのこと。

パーセンタイル順位を比較

パーセンタイル順位は異なるグループに対する評価尺度を比較する時に役に立つ。

例えば、「男性の20代のマラソン」と「男性の30代のマラソン」の順位を比べるとすると

  • 「男性の20代のマラソン」で1000人中100位、つまりはパーセント順位が90%
  • 「男性の30代のマラソン」に10年後に出る際に、同じパーセント順位を維持するにはどれくらいのタイムを維持してれば良いのか?

の計算は過去の「男性の30代のマラソン」のデータをもとに、その際のパーセント順位90%のタイムを見ればわかるよねって話。

終わりに

今回もそんなに難しくなかったけど、自分の例で何か一度やっておきたいなー。