長い専門用語

英語の専門用語の中には非常に長い単語がある。

MeCab用の英語辞書とモデルを独自に作成して、生物・医学文献の解析に使っているのだけれど、非常に長い単語が出現するため、
MeCabの単語長を制限している変数を修正してつかっている。

例えば、Pneumonoultramicroscopicsilicovolcanoconiosis(珪性肺塵症)はOxford English Dictionaryで一番長い単語。45文字。

タンパク質名や化学物質名にはもっと長いものがたくさんある。ただ、最大のタンパク質Titinのアミノ酸配列のスペルアウト(約20万文字)を指して、もっとも長い英単語と呼ぶのはあまり適切ではないだろう。そんな名前の表記、だれも論文で使いませんからね。

蛇足ながら、タンパク質名は表記のバリエーションが激しいため、1500万単語収録の遺伝子・タンパク質名辞書でさえ、まだ文献で実際に使われるタンパク質名をカバーしきれないという過酷な状況だ。しかも普通の単語と頻繁に重なっている。