大規模階層的文書分類

大規模階層的文書分類に関する国際的なチャレンジLSHTC3が現在進行中です。チャレンジというのは、現状の技術では解けそうにない難題に世界各地のチームが挑戦し、その成果を競うという、ある種の競技会の場であるとともに、さまざまな手法を公平な条件の下に、特定の時点において比較するという学術的な場でもあります。我々は、45万件の学習用文書データに基づいて、約8万件の文書データを5万種類を超える階層的クラスに分類するシステムを作成するという(かなり重い)タスクに参加しています。チャレンジの終了は6月末。

本チャレンジは、参加中のチームのスコアが公表されています。現時点で最上位のシステムはうちのシステムなのですが、終了まであと10日程度ありますので、まだまだ紆余曲折が予想されます。このまますんなりとは終わらないでしょう。うちのシステムももう少し良いスコアが出せそうです。

現在のランキングは、ここで確認できます。