読者です 読者をやめる 読者になる 読者になる

leglog

雑記にも満たない

TermExtract関連まとめ

大学の研究でTermExtractというPerlモジュールを使ってテキスト解析を行おうとしてるのだけど、その初期設定だけで実家での作業が終わってしまう珍事、というより失態を晒してるので中間発表が既に危うい。スライドとレジュメ作成作業がまだ手付かずなので佐賀に帰ったら引篭り確定かな…。

作業記録用に今まで見てきたブログとか設定記事をまとめておくことにする。

TermExtract関連


Perl関連



その他


形態素解析MeCabを使用。UTF-8の文章を形態素解析できるところまでは確認したが、TermExtractに読み込ませると結果がemptyで返ってきてしまう。(モジュール自体は正常に動いているのだが、サンプルスクリプトから標準出力に出力結果が出て来ない。。。)恐らくモジュールの文字コードまわりの問題だと思われるのだけど、考えられる原因は全て当たったが期待どおりの結果は出ず。若干キレ気味に

find /usr/local/share/perl5/TermExtract -name '*.pm' | xargs nkf --overwrite -w

とか強硬策に出たりしたものの結果変わらず。多分凡ミスの気はするんだけど、これだけでずっと作業が止まってること考えると胃が痛い…。

また、悪銭苦闘中に見つけたYahoo!のキーフレーズ抽出APITermExtractと同等のランク付けが行えるし、実際コード書いてみたら十分な結果が得られたのだが、APIという特性上長文が送信できないという最大の弱点があった。40件くらいのデータまとめて送った所でERROR返されたので、短文で何度もリクエスト出すことになるが、スピードとランク出した後の結果統合の手間暇を考えると現実的な手段とは到底言い難い。

そんなこんなで、現実解としてはTermExtractさん機嫌直してくれよーと言いたいところだけれど、現状手詰まり感半端ないので佐賀で中間発表の準備と並行しながら解決策を考える所存。