DataFrameで特定カラムでユニークに集計する方法

DataFrameで特定カラムでユニークに集計する方法についてのメモ。利用するデータ今回利用するデータは、一つのアカウントに対して、複数の本のタイトルが紐づいてるデータとする。 df[['account_id', 'title']] 本のタイトルがいくつ紐づいてるか集計する…

2018-08-27

Python(pandas)でざっくりデータを確認する方法

技術ブログヒストグラム原

原さんのブログ読んでいたら、データの傾向を見る方法について簡単に書かれていたので真似したみた。 toohsk.hateblo.jp 結論から言うと、確かに傾向を見るのはすごく楽だし、癖にしたい。要約統計量の確認実はブログを見る以前に、「ヒストグラム」と「要…

2018-08-23

Scrapy + Selenium + Headless Chromeを使ってJupyterからスクレイピングする

Scrapy JupyterLab スクレイピング Selenium 技術ブログ

以前Scrapyを利用してみたが、Jupyterで使えないのか調べて見たのと、ついでにHeadlessブラウザでスクレイピングできないかも調べてみた。 kzkohashi.hatenablog.com Selenium + ChromeDriverのインストール Seleniumはいつものpipでインストールする。 pip …

2018-08-19

Scrapyのスクレピングが簡単すぎて今更感動した話

Python Scrapy 技術ブログスクレイピング

僕はPHPでスクレイピングする時はGoutteを使っていた。 github.com サッやりたい時とかは便利だったりするが、robots.txtの中身だったりの確認やページング処理については自分で実装が必要なため手間だなと思っていた。ふと最近Pythonをよく使ってるし、ス…

2018-08-15

Think Stats(第2版)を読む：５章分布をモデル化する

Think Stats 技術ブログ統計

前回に続いて統計の勉強。 kzkohashi.hatenablog.com 今まで扱った分布は経験分布(empirical distributions)と呼ばれているもので、すべて実際の観察に基づいた分布だったからとのこと。そうなると、標本サイズはデータサイズが限界となり、有限となる。ま…

2018-08-14

Laravelで特定のページに特定のユーザー以外が入ってきたら404を返す

Laravel 技術ブログ

管理画面を作っていると、一般ユーザーにはアクセスされたくないページが出てくる。セキュリティを考えるとIP制限などが理想だったりするが、Laravelで簡単に解決したい場合があるので今回はそちらのやり方でやってみる。カラムの追加とミドルウェアの準備…

2018-08-12

Think Stats(第2版)を読む：４章累積分布関数

Think Stats 統計技術ブログ

前回に引き続き統計のお勉強。 kzkohashi.hatenablog.com PMFの限界前回、PMF(確率質量関数)を用いて、一人めの子供の妊娠周期(濃い青)と二人め以降の子供の妊娠期間(水色)を確率にして棒グラフで表示した。このように、PMFは値の個数が少ない時(ここでい…

2018-08-10

TF-IDFとコサイン類似度を使って似ている文章を見つける

自然言語 TFIDF コサイン類似度技術ブログ

今回は、以前実装したTF-IDFの処理をベースに、自分のブログに一番近いWikipediaの文章は何かをコサイン類似度を使って出してみる。 kzkohashi.hatenablog.com コサイン類似度とは？高校の数学でやったようなやってないようなうる覚えな感じだったので、他…

2018-08-06

形態素解析ツールについてのまとめのまとめ

自然言語技術ブログツール

以前、形態素解析を行う際にMeCabをインストールした。 kzkohashi.hatenablog.com 恥ずかしながら、僕は日本語の形態素解析 = MeCabと思っていたが、実は他にも結構あったのでメモがてらまとめてみる（随時）。正直、僕の知識ではほとんどまとめられなかっ…

2018-08-04

Jupyter Labをもっと快適にするためにvim Extensionを追加する

JupyterLab 技術ブログ

以前Jupyter Labを導入してから使い続けている。 kzkohashi.hatenablog.com ただ、僕はエセvimmerなので若干使いにくいなーと思っていたところ、Jupyter Labには様々なExtention(拡張機能)を追加できるというのを知った。ちなみにJupyterからこの機能はあっ…