SciTube

現在、言語処理学会年次大会が絶賛開催中ですが、今日の夜 SciTube が電話でミーティングをしたいというこで、宿に戻ってきています。イギリスからの電話のため日本の夜の時間が打ち合わせ時間になるため。ところが SciTube について調べてみると、過去にコンタクトされた人は、3分ぐらいの研究紹介アニメーションを作成するために£2.2kぐらいかかると言われたという話にたどり着いた。最近、マテリアルズ・インフォマティクス関係の国際会議の招待講演のお誘いのメールが頻繁に来るのだけれど、だいたいは学会ではなくイベント屋という感じのところで応じていなかったけど、SciTube がそういうところは気がついていなかった。宣伝効果はありそうですので、お金をかけてでも自分の研究を広めたいという方は是非応じていただければいいとは思います。

コーパス

自然言語処理分野や言語学分野でしかコーパスという言葉は通じないことが多いのだが、自然言語処理の研究成果を説明するときについ使ってしまいがちです。コーパスというのは文書などの言語データのことで、以前、NHK英会話にコーパス君が登場していたので多少は認識が広がっているかもしれません。

マンチェスター大学にいたとき、薬学テキストマインニングについてイギリスの大手製薬会社の研究員とミーティングをしていて、その人がスライドで corpi という単語を使った。最初は意味が分からなかったが、どうやらcorpusの複数形のつもりで書いたらしいことに思い至った。corpus の複数形は corporaなので間違いですが、alumnus→alumni、stimulus→stimuliのように、複数形にするときにcorpiの可能性もないことはないとは思ってなかなか面白かった。少し調べたところでは、ラテン語では us で終わる中性名詞を複数形にするときにはaで終わるというルールがあるためcorpiではなくcorporaになるらしい。

ChatGPTは期待よりかなり遅れて誕生

多くの人が認識している通り、2023年3月に発表されたGPT-4は世界に衝撃を与えた。2022年11月にGPT-3.5(ChatGPT)が発表された時点でも、一部世間で話題になっていたが、なんといってもGPT-4になってからのインパクトが大きい。

業界の人間から見るとGPT-3.5も凄い技術ではあったが、結構ウソを答えるので半分ジョークのネタとして話題になっていた。たとえば、桃太郎のあらすじを教えてくれというと、かなり創作が入った桃太郎を返してきて笑っていた。○○さんについて教えてくれというと、全く頓珍漢な経歴を教えてくれた。この時点までは、GPTでいったい何ができるか自然言語処理研究者が探すという、という段階だった。

ところが、GPT-4になったところで明らかな変革があった。ほとんど間違ったことを言わなくなり、プロンプト(指示)に基づく答えも、ほぼ期待通りの応えをしてくれる。あまりに人間のような受け答えができてしまうので、以前は、翻訳システムAとBの翻訳結果の良し悪しを人間が主観的に判定していたところを、最近はChatGPTに2つの翻訳の優劣を聞くことで自動評価する手法もとられるほどだ。GPT-4以降は、GPTで何ができないかを探す時代になった。今、言語処理関係の国際会議はGPTを使ったlow-hanging fruits (簡単に得られる研究成果)の論文が大量に出ている。別に悪いことではなく、時代の変革期には誰でもやるような基本的に研究が実は大事で、その論文はその後膨大な引用を受ける。たとえば、以前でもWikipediaが出始めたときにWikipediaを使って言語処理するという研究は誰でも思いつくことではあったが、最初にその研究に取り組んだ人はパイオニアとして名前が残る。

このように素晴らしいGPT-4について、予想もしなかった技術の進歩だととらえている人は多い。私もそのひとり。近年、機械翻訳の品質が人間並みになっていることは認識していたが、まさか学習が難しいといわれていた対話までこのクオリティで商品化されるとは予想できていなかった。対話は過去の会話内容によって、発言が変わっていくので、現実世界で行われる対話をカバーするだけの対話データを集めるのが難しいし、学習も難しい。せいぜい、ホテル予約や天気予報など、場面を限った自由対話なら人間並みにできるだろうという感じだった。それを軽く超えてきたのがGPT-4だ。

しかし、振り返ってみるとGPT-4は予想(というか期待)より早く生まれたわけではない。SF映画2001年宇宙の旅」に出て来るHAL9000は宇宙船の制御を会話で司っていた。つまり、2001年にはGPT-4レベルの会話ができるようになると予想されていたわけだ。私も子供の頃2001年になったら、これぐらいはできるだろうなと漠然と感じていた。そこから考えるとGPT-4は少なくとも22年遅れて登場したことになる。話を広げれば鉄腕アトムも会話をしていたが、もう少し現実的な技術として考えると、2001年には会話ができるコンピュータが存在するだろうと1980年ぐらいには思っていた。

昨今のAI関係の技術革新はジャンプが大きく予想が難しいが、思ったより大きくは変わらないかもしれない。もちろん、動画の生成が簡単にできたりするようにはなるだろう。今、GPT-4が地上のほとんどの言語データを使って学習してしまったので、動画の書き起こしをして、動画、言語、音声を連携させた巨大なデータセットを作成することで学習データを増やす方向に進んでいる。

同姓同名

言語処理で問題になるのは同姓同名。基本的に記事や論文からの自動識別には限界がある。論文の著者解析をするときも、同姓同名を自動では見分けるのが難しいため、論文登録時に研究者ID(ORCIDなど)を入力させる論文誌もある。

たとえば、2023年6月からNTTデータの社長は佐々木裕という方で私と同姓同名。読みも同じ。面識はない。1990年にNTTデータに入社されたということで、1988年にNTTに入社した私とはかなり経歴が近い。当時はNTTが人気No.1企業で、その年度の新卒採用者を成城の研修センターに全員集めて新人研修をしていた。同期にはミス東京もいたらしい。1988年に入社した際に、入社面接時の話では研究所かNTTのデータ部門(その後NTTデータに分社)のどちらかに配属になるという感触だった。国家公務員上級職(現I種)にも合格していたので、配属が研究所かデータのどちらかでなければ郵政省の郵貯関係の部署に移るつもりでいた。その後、運良くNTT基礎研究所(NTT CS基礎研)からマンチェスター大学を経て現職であるが、NTTデータに行っていたらもっと同姓同名が原因でいろいろ面倒なことになったかもしれない。話のタネに一度お会いしてみたい気もする。大学時代にも別の学年に同姓同名がいたので、結構知らないところも含めて、いろいろなところで同姓同名問題は起きているのかもしれない。

同姓同名

言語処理で問題になるのは同姓同名。基本的に記事や論文からの自動識別には限界がある。論文の著者解析をするときも、同姓同名を自動では見分けるのが難しいため、論文登録時に研究者ID(ORCIDなど)を入力させる論文誌もある。

たとえば、2023年6月からNTTデータの社長は佐々木裕という方で私と同姓同名。読みも同じ。面識はない。1990年にNTTデータに入社されたということで、1988年にNTTに入社した私とはかなり経歴が近い。当時はNTTが人気No.1企業で、その年度の新卒採用者を成城の研修センターに全員集めて新人研修をしていた。同期にはミス東京もいたらしい。1988年に入社した際に、入社面接時の話では研究所配属かNTTのデータ部門(その後NTTデータに分社)のどちらの配属になるという感触だった。国家公務員上級職(現I種)にも合格していたので、配属が研究所かデータのどちらかでなければ郵政省の郵貯関係の部署に移るつもりでいた。その後、運良くNTT基礎研究所(NTT CS基礎研)からマンチェスター大学を経て現職であるが、NTTデータに行っていたらもっと同姓同名が原因でいろいろ面倒なことになったかもしれない。話のタネに一度お会いしてみたい気もする。大学時代にも別の学年に同姓同名がいたので、結構知らないところも含めて、いろいろなところで同姓同名問題は起きているのかもしれない。

DeepL Write

ChatGPTなどの生成言語モデルが話題になる少し前から、Transformerベースの深層翻訳システムが実用化されていた。翻訳も対話も入力に対する適切な文を生成するという点では同じであり、学習するデータが同じ言語か別の言語かの違いがあるだけだ。翻訳ソフトの中でも無料でありながら驚異的な翻訳品質で話題になっていたのがDeepLで、このブログでも日本語対応開始時点から紹介していた。

そのDeepLが提供しているDeepL Writeの出来がこれまた非常に良い。DeepL Writeは翻訳ではなく、入力した英文を校正して、より良い英文に変えてくれる。少し前に、VAEをベースに入力文の誤りを異常値検出の手法で判定するという研究に取り組んでみたが、思ったより性能が出なかった。DeepL Writeはかなりのケースでブラッシュアップした英文にしてくれる。DeepLで翻訳した英文をさらにDeepL Writeにかけると、かなりネイティブ的な英文になる。稀に意味を取り違えて書き換え候補を出すので妄信は禁物ではあるがとても参考になる。

たとえば、Knocking on locked door をDeepL Writeに与えると、Knocking on a locked doorではないかと文法的な間違いを指摘してくれる。日本の出版業界や放送業界の人にも使用を勧めたい。ボブディランの Knockin' on heaven's doorは間違っていないが、言い換えの候補を示してくれる。

SNL2023

Symbolic-Neural Learning Workshopが,6/28-29に東京日本橋にある理研AIPで開催されました.コンピュータビジョン,音声,ロボティクス,自然言語処理,知識処理の関係者がバランスよく集まる良い研究交流の場となりました.

その中で,Albert Gu先生が基調講演で紹介してくれた Structured State Space Model のS4は非常に興味深かった.数値データの系列予測モデルではあるが,自然言語処理にも適用でき,データセットによってはTransformerを超える性能が得られている.質疑の時間に質問して教えてもらったところによると,現在,S4を大規模言語データで訓練したS4ベースの大規模言語モデルを研究されており,まだ論文にはなっていないがTransformerを超える性能が得られる見込みがあるとのこと.