Eze Hierarchical Classification System

I am glad to announce that Eze Hierarchical Classification System has been released today. You can download it from:
http://www.tti-coin.jp/

この4年間ぐらい大規模な階層的文書分類の研究をしてきました。科研費の支援もいただき、今年度の末に文書分類ツールEzeをリリースできるところまでこぎつけました。

下記のリンクからアーカイブをダウンロードしコンパイルしてください。テストはFedora上でLSHTC3のWikipedia Mediumデータを使っておこなっています。

http://www.tti-coin.jp/

大規模階層的分類データLSHTC3のWikipedia Mediumデータでの学習時間は約30分です。これは画期的に高速で、LSHTC3チャレンジの上位のシステムは数日から十数日学習に時間がかかっています。しかも、この30分はファイル入出力の時間等すべてコミコミの処理時間です。学習だけなら10分程度しかかかっていません。シングルコアでの処理時間です。高速化のためにデータを削っているわけではなく、すべてのデータを対象に学習していますので、LSHTC3チャレンジの優勝システムを凌ぐスコアがでます。

GCC環境ならたぶんコンパイルできると思いますが、処理時間を測定しているところで引っかかるかもしれません。その場合は、時間関係の処理をコメント化してコンパイルしてください。時間の計測は付加的やっているだけですので、学習結果には影響しません。メモリは1GBぐらいしか使いません。

分類対象クラスが木構造またはシングルrootのDAGになっていて、データに付いているクラスが末端(leaf)クラスだけであれば、他のデータでも使えます。特徴ベクトルはSVMと同じ形式です。詳しくはREADMEを参照ください。

まだ、version 0.01ですのでバグがあると思いますが、今後改善していきます。ライセンスはGPL2.0です。最近の若い人はもっと制約のないライセンスを好むようですが、私には、閉鎖的な形で営利利用されることのないGPLがしっくりきます。

最後に、Ezeの由来はフランスのニース近くの観光地Ezeです。マンチェスター大学で働いていたときに休暇をとって観光に行ったのですが、地中海を見渡せる小高い岩山の山頂に公園があって、とても気持ちの良い場所です。今でも強く印象に残っています。上から下に階層的にデータを流すタスクとEzeの地形が何となく似ているので名前をお借りしました。