CUDA multiprocess エラー

備忘録Python上でCUDAを使ってGPUによるマルチプロセスを実行しようとすると下記のエラーに出てしまい、対処法を探すのにかなりの時間を費やした。RuntimeError: CUDA error: initialization error 先人の知恵を借りながら、試行錯誤の結果、プログラムの先…

SciTube

現在、言語処理学会年次大会が絶賛開催中ですが、今日の夜 SciTube が電話でミーティングをしたいというこで、宿に戻ってきています。イギリスからの電話のため日本の夜の時間が打ち合わせ時間になるため。ところが SciTube について調べてみると、過去にコ…

コーパス

自然言語処理分野や言語学分野でしかコーパスという言葉は通じないことが多いのだが、自然言語処理の研究成果を説明するときについ使ってしまいがちです。コーパスというのは文書などの言語データのことで、以前、NHK英会話にコーパス君が登場していたので多…

ChatGPTは期待よりかなり遅れて誕生

多くの人が認識している通り、2023年3月に発表されたGPT-4は世界に衝撃を与えた。2022年11月にGPT-3.5(ChatGPT)が発表された時点でも、一部世間で話題になっていたが、なんといってもGPT-4になってからのインパクトが大きい。業界の人間から見るとGPT-3.5も…

同姓同名

言語処理で問題になるのは同姓同名。基本的に記事や論文からの自動識別には限界がある。論文の著者解析をするときも、同姓同名を自動では見分けるのが難しいため、論文登録時に研究者ID(ORCIDなど)を入力させる論文誌もある。たとえば、2023年6月からNTTデー…

同姓同名

言語処理で問題になるのは同姓同名。基本的に記事や論文からの自動識別には限界がある。論文の著者解析をするときも、同姓同名を自動では見分けるのが難しいため、論文登録時に研究者ID(ORCIDなど)を入力させる論文誌もある。たとえば、2023年6月からNTTデー…

DeepL Write

ChatGPTなどの生成言語モデルが話題になる少し前から、Transformerベースの深層翻訳システムが実用化されていた。翻訳も対話も入力に対する適切な文を生成するという点では同じであり、学習するデータが同じ言語か別の言語かの違いがあるだけだ。翻訳ソフト…

SNL2023

Symbolic-Neural Learning Workshopが,6/28-29に東京日本橋にある理研AIPで開催されました.コンピュータビジョン,音声,ロボティクス,自然言語処理,知識処理の関係者がバランスよく集まる良い研究交流の場となりました.その中で,Albert Gu先生が基調…

知識グラフ

最近、AI業界では知識の表現に「知識グラフ(Knowledge Graph)」を用いた研究が流行っていて、うちの研究室でも使っています。 知識グラフは、知識を「主語ー述語ー目的語」の3つ組の集合で表現したものです。例えば、「リンゴの色は赤い」という知識は、(リ…

アジア国際研究賞2023

超電導に関する文献からの情報抽出の成果に関して、アジア国際研究賞2023「アジア優秀研究賞」に選ばれたようです。主催はインドの選定機関で、賞を受けるには6/9までに$225を支払う必要があるとのこと。まあ、そういうことです。常識的には、受賞というのは…

ChatGPT と言語モデル

文には、表現のレベルと意味のレベルがあります。私たちが普段言葉を使っているときにこの2つレベルの違いは意識せずに自然に話をしていますが、この2つのレベルには明らかな違いがあり、かつこの2レベルは当然のことながらお互いに強く関係しています。表現…

ChatGPT が突きつける「理解」とは何か

続いてChatGPTの話題。GPT-3の登場あたりから、人間とコンピュータの対話(タイピングを通したチャット)が違和感のない文を通してできるようになったことで、この対話を通して、コンピューターは本当に分かって話しているのかどうかが議論になっている。た…

ChatGPT

ひさしぶりに言語処理の話題です。GPT-4になっておかしな答えをすることも減ってきています。 まず ChatGPT とは何かを簡単に説明します。ChatGPTは、膨大な数の文書を学習データとして、どのような文が尤もらしいかを深層学習(Deep Learning)により学習し…

7インチタブレット

NLPとは全く関係ありませんが、未だにNexus7同等の7インチタブレットを見つけることができません。現時点での必須条件として、純正のAndroid 11以上、ディスプレイ7インチ、フルHD以上、メモリ4G以上、SIMスロットx2(e-SIMスロット含む)を想定しています。…

AMIA 25x5

AMIA(American Medical Informatics Association: 米国医療情報学会)は、AMIA 25x5という活動を宣言しており、2022年から5年間で医師などが電子カルテ等の文書作成に要している労力を25%削減することを学会の活動目標として定めている。さらに、この活動を…

BERTは外部知識か?

自然言語処理の論文で、外部知識を使っていない方法の中では、我々の方法が一番スコアが高い、という主張をしたいことがある。ただ、よく考えると今は多くの研究でBERTを使っているので、厳密には外部知識を使っていないとは言い難い。 タスクによりますが、…

自動翻訳の品質確認

DeepLによる日本語のアナウンスの翻訳結果を見てみた。原文 台風14号の接近に伴い、9月19日(月)の夕方から列車の運転本数を減らし、夜までに列車の運転を取りやめる可能性がございます。 運行計画の詳細につきましては、今後の状況を踏まえ、9月19…

tqdm備忘録

tqdmを使って端末環境で学習時の進捗を表示すると、表示がずれていき画面が見にくくなることがある。あまり推奨されないが、ひとりで使っている環境ならtqdmモジュールを直接書き換えることで解決できる。対処法ではあるが、tqdmモジュールの中のstd.pyの143…

More than 10,000 reads

ResearchGate にアップロードされいる論文の読者数をResearchGateがカウントしていて、F値に関する解説文の読者数が10,000を超えたというメールが届いた。参照数も500を超えていて(ResearchGate 調べ)、"This item's Research Interest is higher than 99%…

SNL2022 対面開催

第6回のSNL(Symbolic-Neural Learning)ワークショップを名古屋で対面形式で開催します。コロナ禍後、対面での国内での国際会議はまだそんなに数が多くないのではと思います。小規模な国際会議のメリットで、決断してから開催までのリードタイムを短くできた…

dtab d-42AでUbigi

前回の流れの続きですが、結局仕事用のタブレットとしてd42aを少し前に購入しました。 最近、海外での利用を考えてUbigi のeSIMを導入したときのメモ。ドコモの通信容量十分のプランの利用者はそのまま海外利用できるのですが、私のdtabはWifiがある環境での…

続Nexus 7

余談のつづき。未だにNexus 7 2013と同等なタブレットがない現状をどこかのメーカーになんとかしてもらいたいものです。LineageosでNexus 7を再利用できていますが、メイン機にするはバッテリの持ちが悪くなってきていて信頼性も低下していますし、反応が少…

Nexus 7 2013 再利用

メモ代わりに。AndroidのスマホやタブレットはAndroid OSが古くなると最新のアプリが動かなくなって買い替えるしかなくなります。AndroidのOSのアップデートも随時行われますが、発売から3年程度でサポート外になります。最新のAndroidは12ですが、Android 6…

言語処理学会年次大会

言語処理学会年次大会NLP2022(3/14-18)が進行中です。オープニングによると歴代の最大の参加者数は今のところNLP2019だそうです。 NLP2019は私がプログラム委員長を務めた年なのですが、(誰にも言ってませんでしたが)大会1週間前に実母が急逝し大変でし…

日本のIT音痴あるいはDX後進国ぶり

言語処理というより、広く情報系の教育についての話題です。コロナのまん延とともに、小中学校などでパソコンの貸し出しが行われています。オンライン授業に慣れるための予行演習をしているという感じです。もちろん、私立の小中学校などは昨年からタブレッ…

Zenodoを使ってGithubのレポジトリのDOIを取得

深層学習系の研究では、論文に記載した実験を行ったときのプログラム一式をGithub等で公開するのが普通になってきています。一方、Nature系の論文誌など自然科学系の論文誌では、プログラムコードを公開するだけでなくDOI(Digital Object Identifier)を付与…

レガシー

言語処理とは関係ない話題です。Windows 10になって、過去の機器が実は使えなくなっていることに気が付いた人も多いのではないでしょうか。 たとえば、いつのまにかSCSI機器やPCMCIAのカードなどの大部分動かなくなっています。Windows 7 までは XP のドライ…

miniconda

(以下は2021年5月6日時点の情報です.ライセンス条件は変更になる可能性があります.)Anaconda が商用利用とならない範囲で Anaconda 環境がどれぐらい使えるのかを確認してみた.なお,Anaconda3が既に導入されているWindowsに,minicondaをデフォルトの…

20年前の日本語QA

最近久しぶりにQAに関係した研究をしたので,日本語QA技術に関する歴史を紹介してみる.2001年に某研究所のオープンハウスにてQA技術を公開した.システム名はSAIQAである.この頃38才ぐらいなので一番エネルギーがあふれている頃.これは最初の実用的な日本…

htop

Unix系のtopコマンドは、プロセスの実行状況やCPU毎の負荷状態を見ることができて便利ですが、コア数(ハイパースレディング含む)が50ぐらいまでしか端末に表示できません。 96コア(192スレッド)のサーバーのCPU毎の状況は画面に収まりきらないため、どう…