Philosophical Transaction A

マンチェスター時代に関係していたプロジェクトの成果が論文になりました。掲載されたのは英国王立協会発行のPhilosophical Transactionsという論文誌で、「哲学紀要」と訳されますが、科学分野全般を対象にした最古の英語論文誌です。

http://rsta.royalsocietypublishing.org/content/368/1925/3829.abstract

教育向けポータルサイトの文書分類のコンポーネントを担当しただけですので、メインの著者というわけではなく何人かの連名のひとりにすぎないのですが。

これで終わってしまうとつまならいので、このプロジェクトでの経験から感じたことを少し書いておくことにします。文書分類という古典的なタスクのニーズはいろいろなセクターで現在ものすごくあるということです。しかも、現実世界の問題では、文書が数百MB〜数GBあり、分類対象のクラス数も数百クラスといったサイズを扱うことが求められますので、とても注意して訓練データや素性を選択しないと、すぐに学習できなくなったり、分類時点で遅くて使えなくなったりします。例えば、数百MBの文書でバイグラムをそのまま素性に使うと、学習に何十時間もかかる上に、出来上がったモデルがGB単位になり、実行時のモデルの読み込みが遅くなりますし、このサイズのモデルがクラスの数にあわせて数百あったら、もう使い物になりません。このあたり応用研究としてまだ研究の余地があります。