医療カルテの自動分類に関する国際的なShared TaskであるMedical NLP Challenge: CMC 2007 Challengeで使われたデータがリリースされた。
非商用利用の場合は無料。入手は下記より。
http://www.computationalmedicine.org/catalog
ICD-9コードの付与された約1000件の英語の電子カルテを訓練データにして、約1000件のコードのついていないカルテのICD-9コードを当てるというタスク。
少ないデータの素性をうまく掴みながら、複数のコードをどう付与するかが性能の鍵となる。(実際のカルテのデータを大量に集めるのは現実的に不可能であるため、いかに少ないデータをうまく汎化するかが問題となっている。)
44チーム参加して、私のシステムはcost sensitive measureで5位、micro average Fで8位。
トップのシステムにはおよばなかったけど、米国のNIHのシステムよりスコアが良かったということで多少computer scientistの側の面目が保てたかもしれない。
ちなみに感触としては、トップのシステムはかなり分野やデータに依存した手法を使っていると思われる。