いっきのblog

技術とか色々

Python

DataFrameで特定カラムでユニークに集計する方法

DataFrameで特定カラムでユニークに集計する方法についてのメモ。 利用するデータ 今回利用するデータは、一つのアカウントに対して、複数の本のタイトルが紐づいてるデータとする。 df[['account_id', 'title']] 本のタイトルがいくつ紐づいてるか集計する…

Scrapyのスクレピングが簡単すぎて今更感動した話

僕はPHPでスクレイピングする時はGoutteを使っていた。 github.com サッやりたい時とかは便利だったりするが、robots.txtの中身だったりの確認やページング処理については自分で実装が必要なため手間だなと思っていた。 ふと最近Pythonをよく使ってるし、ス…

pythonを使ってORBとPerceptual Hashで画像の類似度を比べてみる

どうも、くずきです。 今回はPythonを使って画像の類似度を求めました。 なぜやりたいのかというと、インスタグラムなどのSNSで画像を設定していない人を除外したい。つまり、 この画像か、近しい画像を設定している人が見つけ出せれば良い。 比較対象の画像…

RedashでTwitter APIを用いて、インフルエンサーの情報を可視化をする

どうも、くずきです。 今日は「Redash Advent Calendar 2017」12日目の記事として、RedashでTwitter APIを用いて、インフルエンサーのインサイト情報を可視化をすることをしたいと思います。 qiita.com インフルエンサーって何やねんって人はすごく簡単にで…

Redash + docker-composeでPythonデータソースを使うやり方と外部ライブラリを追加する方法

どうも、くずきです。 Redash + docker-composeでPythonデータソースを扱う場合に、Pythonのライブラリを追加する機会があったのでメモときます。 今回はid:kakku22が提供している、Redashのハンズオンをベースに構築している。 github.com Pythonデータソー…