CMC 2007 Challenge Data - Open Notebook NLP

医療カルテの自動分類に関する国際的なShared TaskであるMedical NLP Challenge: CMC 2007 Challengeで使われたデータがリリースされた。

非商用利用の場合は無料。入手は下記より。

http://www.computationalmedicine.org/catalog

ICD-9コードの付与された約1000件の英語の電子カルテを訓練データにして、約1000件のコードのついていないカルテのICD-9コードを当てるというタスク。
少ないデータの素性をうまく掴みながら、複数のコードをどう付与するかが性能の鍵となる。（実際のカルテのデータを大量に集めるのは現実的に不可能であるため、いかに少ないデータをうまく汎化するかが問題となっている。）

44チーム参加して、私のシステムはcost sensitive measureで5位、micro average Fで8位。
トップのシステムにはおよばなかったけど、米国のNIHのシステムよりスコアが良かったということで多少computer scientistの側の面目が保てたかもしれない。

ちなみに感触としては、トップのシステムはかなり分野やデータに依存した手法を使っていると思われる。