くずきのblog

技術とか色々

キカガクで機械学習を学んだことを振り返る(~機械学習における流派の違い~)

どうも、くずき(@kzkohashi)です。
知り合いのエンジニアが、去年からブログを毎月20くらい書いてて、フォロワーも何倍も増え、毎月のPVも1万くらいあるみたいで継続は力なりだなと思う今日頃ごろ。

2017年の4月ごろ、キカガクがやっている、機械学習の初級者向けのブラックスボックスセミナーというものを受けた。
先に感想いっておくと、すごくよかった。機械学習において、理論を知るためには「数学」というハードルが常に付きまとうのだが、そのハードルをだいぶ下げてくれて、色々な本の数式やらが気持ち読めるようになってきた。
あと、基本紙に書かされるので、2日間で30〜40枚くらいノート使いました。笑

www.kikagaku.co.jp

去年より値段上がってるけど、セミナーの内容も洗練されているだろう。しかも他のセミナーも増えているので興味ある人は是非。
とおもったら、Udemyで初級/中級(こないだ出たばかり)があるっぽくて、目次だけ見た感じこっち受けて見てもいいかも

www.udemy.com

www.udemy.com

本題に戻りますと、今回は受けたセミナーを元に内容を復習していきたいと思う。流れとしてはこんな感じ。

授業の内容全部は覚えてないのとオリジナルっぽいところは言わないようにしてるので興味ある人はセミナーかUdemy受けた方がいいです!

なぜ受けたのか?

僕は一昨年ごろから時代の荒波にのまれ、機械学習を勉強しないとなと思い色々な書籍を読んだ。研究室ではクラスタリングや簡単に機械学習を学んでいたのもあって、概念や実装自体はなんとなくわかってたような気がしてしまっていた。
実際は、ビジネスで活用って話になるとあまり理解できず、そもそもこの手法がなんでいいのか、数学的に解いたことがないため本当になんでこれがこうなるのかがわからずにモヤモヤしてた。そんな時に機械学習を数学から丁寧にといてくれるというセミナーをQiitaらへんでみつけ、即応募した。おこづかい制になったので5万円は手痛いたかったけど、時間は金で買うものだ。(と言い聞かせる)

機械学習における、流派の違い

そもそも、機械学習には求め方において流派の違いがある。
線形代数ベースと確率統計ベースとなるものだ。

f:id:kzkohashi:20180212110237p:plain

線形代数ベースは、ディープラーニングSVMなどの手法がある。比較的線形代数は解きやすいとされていて、初学者はこっちからはいるといいらしい。
確率統計ベースは、MCMCベイズ統計などがある。線形代数と比べ、解き方が難しく初学者にはきついらしい。これは目からウロコで、自分が買った書籍などを読み返すと確かにやめてしまったあたりは確率統計ベースの話らへんになっている。。

内挿と外挿

機械学習では、規則性を見つける必要がある。ということは過去のデータが必要になる。
コンピューター自身が規則性を式に表すことは、候補が多すぎるため、式の定数を求めるのが非常に難しい。
過去のデータの範囲内の値を求めることを内挿といい、範囲外の値を求めることを外挿という。 内挿内のデータなら予測することは可能であるのに対して、外挿(内挿外)のデータの場合、また定数を求めなくてはいけない。

ここで例をあげると、特定の年代の人たちのアンケートを収集し、他の年代の人たちの結果を予測するものがあるとしよう。   そこで最も重要になるのが、アンケートを取る際に最小値と最大値を意識して取ること。

  • 20代(最小)と30代(最大)のアンケートを収集: 40台の予測は外挿になる
  • 20代(最小)と60代(最大)のアンケートを収集: 30台の予測は内挿になる

ここらへんは肌感でなんとなくわかる気がする。
ただ、こういったことを知っておかないとデータ取得がもっとも重要な領域なので意識しておきたいところだ。
株価などの時系列データに関しては、値段などが内挿となる。

補足

そもそも、機械学習統計学の違いってなんだろう?とか他に種類あるのか?って思った時に参考になった記事の紹介。
分析の業界じゃ有名なTJO先生

tjo.hatenablog.com

さらに、機械学習エンジニアやデータサイエンティストの違い、要求されるスキルについて書いた記事も参考になるので是非。 要求スキルのレベル高すぎてやばいけど、目標たてずらかったからこの記事のおかげで目標立てやすくなった。

tjo.hatenablog.com

すでにある程度勉強されている方は、データサイエンティストの知り合いが、このやり方をトレースするとかなり勉強になると思うよといっていたのでこちらも。分析する際に、まずはデータの散らばりや、どういうところに着眼点を置くのかがかなり重要なためそういった話とかもあります。

www.analyze-world.com

終わり

区切り悪いのでイントロはこんなもんで。