コーパス

自然言語処理分野や言語学分野でしかコーパスという言葉は通じないことが多いのだが、自然言語処理の研究成果を説明するときについ使ってしまいがちです。コーパスというのは文書などの言語データのことで、以前、NHK英会話にコーパス君が登場していたので多少は認識が広がっているかもしれません。

マンチェスター大学にいたとき、薬学テキストマインニングについてイギリスの大手製薬会社の研究員とミーティングをしていて、その人がスライドで corpi という単語を使った。最初は意味が分からなかったが、どうやらcorpusの複数形のつもりで書いたらしいことに思い至った。corpus の複数形は corporaなので間違いですが、alumnus→alumni、stimulus→stimuliのように、複数形にするときにcorpiの可能性もないことはないとは思ってなかなか面白かった。少し調べたところでは、ラテン語では us で終わる中性名詞を複数形にするときにはaで終わるというルールがあるためcorpiではなくcorporaになるらしい。