いっきのblog

技術とか色々

MeCab

Wikipediaからコーパスを作る

前回、文章を単語分割するためにMeCabをインストースルしたが、大元となるデータ(コーパス)も欲しい。Wikipediaでは全文データをダウンロードすることができるので、それを利用する方法について書いていきたいと思う。 kzkohashi.hatenablog.com コーパス…

文章の単語分割を行うためにMeCabをインストールする

日本語の自然言語処理をやっていく上で、よく使われているであろうMeCabのインストールを行う。 そもそも前処理はなんぞやというと、いい例があったので引用させていただく。 引用:自然言語処理における前処理の種類とその威力 初心者の自分にとってはこんな…