So-net無料ブログ作成
検索選択

リクルートテクノロジーの自動要約API [Python]

@shinyorke さん経由で Python の自動要約API の存在を知る
http://blog.recruit-tech.co.jp/2015/10/30/summpy-released/

GitHub のリポジトリは https://github.com/recruit-tech/summpy
python2.7 で、以下のパッケージが必要とのこと

- numpy
- networkx
- scikit-learn
- pulp
- cherrypy
- MeCab

自分の Ubuntu14.04 の環境で、できるだけ pip install でインストールした。
古いバージョンのものもあったので、それは pip install --upgrade で最新にした
(自分の環境では、 --upgrade する前は "scipy distance metrics do not support sparse matrices." と出てた。さっぱりわかってない)

MeCab(python-mecab)は、pip でインストールするのを早々に挫折して apt-get でインストールしたのだが、辞書を EUC-JP から UTF-8 にする必要があったため、 mecab コマンドも apt-get でインストールした。
そこらへん、まとめて http://mglab.blogspot.jp/2008/06/mecabpython.html あたりが参考になった。
結局、 Mecab 関係のインストールと設定は

$ sudo apt-get install mecab mecab-ipadic mecab-utils libmecab-dev
$ sudo /usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/ipadic \
-o /var/lib/mecab/dic/ipadic -f euc-jp -t utf-8 -p
$ sudo apt-get install python-mecab

こんな感じ。

とりあえず動くのだけ確認したけど、みんな、 WebAPI よりは、ライブラリ(pypi からインストールできるパッケージ)になっているほうがうれしいんじゃないかなと思う。
もちろん、使用例として WebAPI の実装があるのはうれしいんだけど。


残念ながらライセンスの表記がないので使いづらいなぁ

(2015-11-05 追記)
MITライセンスになってた。すばらしい
https://github.com/recruit-tech/summpy/commit/cec00ace472ba8a35279de0195ee96bab54a701a
コメント(0)  トラックバック(0) 
共通テーマ:日記・雑感

コメント 0

コメントの受付は締め切りました

Facebook コメント

トラックバック 0

トラックバックの受付は締め切りました