AMIA 25x5

AMIA(American Medical Informatics Association: 米国医療情報学会)は、AMIA 25x5という活動を宣言しており、2022年から5年間で医師などが電子カルテ等の文書作成に要している労力を25%削減することを学会の活動目標として定めている。さらに、この活動を通して労力の75%削減を最終的に目指している。

このような学会による数値目標の設定はいかにもアメリカ的で、学会の存在意義を社会に対して明確に訴えるためのメッセージとして十分に強力だろう。我々の研究室も、まさにバイオメディカルNLPの研究をしていますので、この活動に自然と巻き込まれていることになります。日本の学会は、基本的に論文誌の発行や大会の開催をつつがなく実施することが活動内容であって、学会として世の中を変えることに対する数値目標を設定するという話はあまり聞いたことがない。

2009年まで英国立マンチェスター大学にいたときには、その時点のTHE世界ランキング90位ぐらいから、さらにランキングの上位に上がるためには何をすべきかを大学として検討し、中長期計画を立てていた(当たり前ですが私は全くタッチしていません)。現時点で50位ぐらいまで上がってきているので、たぶん当時の計画には効果があったのだろう。

ちなみにイギリスの大学評価は、非常に細かく綿密に数値化されており、カリキュラムや授業の状況を調査するだけでなく、学科単位で所属教員・研究員の論文数やインパクトファクター、被引用数からスコアを算出し、一般に公表する。このため、うちの大学の○○学科は△△大学の○○学科より、学科のスコアが0.3高いといった宣伝が公然と行われ、高校生もこのようなスコアをベースに何処の大学のどの学科がどれぐらい頑張っているのかを判断する。そのため、人事の際には、被引用数の多い論文やインパクトファクターの高い論文誌に掲載された論文を多く持っている教員・研究員が優先的に採用されることになる。

被引用数をベースにした指標にh-indexがあり、アメリカの大学の教員の採用時点では人物像以外にh-indexの値がかなり参考にされるようだ。h-index は、ある人が著者となっている論文を被引用数が多い順に並べて、上位N位までの論文の被引用数がN以上となる最も大きいNである。例えば、ある人の被引用数第12位の論文の被引用数が15回で、第13位の論文の被引用数が11回であればその人のh-index=12となる。h-indexには少し問題があり、長く研究しているほど論文数が多いので有利になる。また、1本だけ参照数が数千あるようなノーベル賞級の論文を書いていて、残りの研究はあまり参照されていないという特殊な場合は、h-indexはあまり高くない。とはいえ、h-indexは研究者のパフォーマンスを計るためのそこそこ良い尺度であるので、これからも使われていくだろう。

とここまで書いたところで、Times Higher Educationからサーベイ依頼のメールが来ました。少し監視されているようで気味が悪い。考えすぎだと思いますが。

BERTは外部知識か?

自然言語処理の論文で、外部知識を使っていない方法の中では、我々の方法が一番スコアが高い、という主張をしたいことがある。ただ、よく考えると今は多くの研究でBERTを使っているので、厳密には外部知識を使っていないとは言い難い。
タスクによりますが、場合によってはテストデータに含まれる文でBERTを学習していて、そのことが(気が付かないうちに)性能に影響している可能性もあります。この場合は期せずしてトランスダクティブな評価になっている。最悪のケースでは、例えば、英文の穴埋め問題をBERTを使って解かせたときに、実はテスト文と同じ文でBERTの学習をしているということもありうる。この場合は、トランスダクティブというより、学習時にテストデータの答えを見ていることになってしまう。
今の研究の流れでBERT系の事前学習を使わないことは考えらないので、BERTがだめということではないのだけれど、外部知識を使っていないという主張をするときには(自戒の意味でも)気を付けないといけない。今の若い人はBERTありきで研究をしているので、ではどうすれば外部知識を使わないで評価できるかという疑問を持つと思う。厳密には、与えられた訓練データ以外のものは何も使わないでテストするということになる。例えば、単語やトークンを昔のようにOne Hotベクトルで表現することになる。BERTも訓練データだけで学習したものを使えば、外部知識を使っていることにはならない(相当大きな訓練データでないと効果は少ないと思いますが)。
逆から考えると、今やもう訓練データだけを使って外部知識なしで評価するという時代ではなく、いかに外部知識を事前学習などで活用するかという点で勝負する研究にシフトしているという見方もできます。
少し宣伝になりますが、我々の研究室では、薬学分野の知識を知識グラフで表現して深層言語処理に組み込むと性能が上がることを確認しています。

自動翻訳の品質確認

DeepLによる日本語のアナウンスの翻訳結果を見てみた。

原文

台風14号の接近に伴い、9月19日(月)の夕方から列車の運転本数を減らし、夜までに列車の運転を取りやめる可能性がございます。 運行計画の詳細につきましては、今後の状況を踏まえ、9月19日(月)の11時頃を目途にお知らせする予定です。 また、9月20日(火)についても、始発より運転を見合わせる可能性がございます。
今後の気象情報と列車の運行情報にご注意ください。

DeepLによる訳文

Due to the approach of Typhoon No. 14, the number of train services will be reduced from the evening of Monday, September 19, and may be cancelled by the evening. We will inform you of the details of the operation plan around 11:00 a.m. on Monday, September 19, based on the future situation. Also on Tuesday, September 20, trains may be suspended from the first departure.
Please check the weather and train operation information carefully.


Translated with www.DeepL.com/Translator (free version)

かなりの出来栄えです。一瞬で翻訳されますが、たぶん私が5分ぐらいかけて書く英語より遥かに良いと思います。first departure は first train の方がベターでしょうか。future situation は、原文の意図がどのあたりにあるかによりますが (weather) forecasting の方が意図が伝わりそうです。

参考までに上記日本語アナウンス文に対応した英語のアナウンス文

Due to a nearby typhoon, the number of trains operating will decrease from the evening of September 19, and there is a possibility that the train will stop by the night.
The next notification is planned for September 19 at around 11.
Please check future weather reports and information on train operation.

内容はだいたい伝わりますが、英語的なスムーズさが不足しているように感じる人は多いのではないでしょうか。

特に何かを批判するつもりはなく、自動翻訳が直訳調ではなくなってきていることを確認できたというお話です。海外のIT企業には、日本人向けのマニュアルやホームページを自動翻訳で提示しているところが結構あります。

tqdm備忘録

tqdmを使って端末環境で学習時の進捗を表示すると、表示がずれていき画面が見にくくなることがある。あまり推奨されないが、ひとりで使っている環境ならtqdmモジュールを直接書き換えることで解決できる。対処法ではあるが、tqdmモジュールの中のstd.pyの143行目あたりのUTFの代入値をUTF=u"-#"のように書き換えると進捗にあわせて#が増えていくようになる。画面も乱れない。
なお、自分のPython環境で該当するstd.pyが確信を持ってわからない人や自分が何をしているのかわからない人は、経験値が足らないのでこのような対処法に手をだすべきではありません。修正の結果不具合が発生する可能性もありますので自己責任でお願いします。
Jupyter Notebook用には別の正当な対処法がありますのでググってください。

More than 10,000 reads

ResearchGate にアップロードされいる論文の読者数をResearchGateがカウントしていて、F値に関する解説文の読者数が10,000を超えたというメールが届いた。

参照数も500を超えていて(ResearchGate 調べ)、"This item's Research Interest is higher than 99% of research items on ResearchGate." らしい。ResearchGate に登録されている全論文の中で、研究的な興味の評価において上位1%以内に入っているということのようだ。ただのメモなのですが。15年前に自分が書いたものをいまだに誰かが週60人ぐらいのペースで読んでくれているというのはありがたいことです。

SNL2022 対面開催

第6回のSNL(Symbolic-Neural Learning)ワークショップを名古屋で対面形式で開催します。コロナ禍後、対面での国内での国際会議はまだそんなに数が多くないのではと思います。小規模な国際会議のメリットで、決断してから開催までのリードタイムを短くできたが要因でしょう。コロナの状況を見て、3月に対面開催を決断してから7月に対面のみで開催というのは大きな国際会議では難しいですから。
SNLワークショップは、2017年に深層学習手法に知識構造などの記号的情報を融合する研究を盛り上げるためにスタートしました。最初は、豊田工大と豊田工大シカゴ校(TTIC)が中心となっていましたが、今は産総研理研大阪大学東工大、統数研に共催・協賛をいただいています。
プログラムはほぼ確定していましたが、最後のひとりの基調講演者がまだ確定しておりませんでした。昨日、Ed Hovy先生から基調講演をいただけるという返事がありました。これで、マイクロソフトの池内先生、Dan Roth先生、Sebastian Riedel先生、Ed Hovy先生に基調講演をいただけ、ワークショップの講演者が豪華になりました。国内を中心にした招待講演者も顕著な成果を挙げられている方ばかりですので盛り上がりそうです。これで懇親会もできればいいのですが、残念ながらまだ国内では懇親会ができる環境は整っていません。もったいないことです。
参加登録は http://www.tti-coin.jp/SNL2022/registration.html からどうぞ。6/19までが早期登録料金です。また、ポスター発表の投稿も募集中です。

dtab d-42AでUbigi

前回の流れの続きですが、結局仕事用のタブレットとしてd42aを少し前に購入しました。
最近、海外での利用を考えてUbigi のeSIMを導入したときのメモ。

ドコモの通信容量十分のプランの利用者はそのまま海外利用できるのですが、私のdtabはWifiがある環境での利用を想定していますので1G/月のプランになっています。そのため海外で旅行中に利用するにはデータ容量1GBを1100円で追加で購入する必要があります。他には、現地SIMを買うという手もあり、今回はd-42AがeSIM(のみ)であることを活かして現地SIMよりも便利な世界中どこでも使えるeSIMの契約をしてみました。世界中で使えるので日本で使えるプリペイドの契約もあります。Ubigiはいくつか存在する世界各国対応のモバイルインターネット接続を提供している会社のひとつで、この会社はNTTが資本元になっていますので少し安心感があります。

ただ、d-42AへのUbigiのeSIMのインストールは難航しました。ます、Ubigiのアプリがd-42Aに対応していないようで、アプリを立ち上げて、最初のステップとしてeSIMのインストールボタンを押しても反応がありません。このステップを超えないとユーザー登録ができないという仕様ですので、ここで詰んでしまいました。試行錯誤ののち、まずeSIMインストール用のQRコードをUbigiのサイトから送信し、QRコードではなく、アクティベーションコードをAndroidのeSIM設定で入力して、ロック解除のコードを入れて、UbigiのAPNを設定すると、やっとUbigiのアプリからアカウントが作れるので、そのアカウントでプリペイドプランを購入すると使えました。簡単に書いていますが、結構面倒でした。

事前に必要な情報
 d-42AのSIMロック解除コード
 d-42A のIMEI
 d-42AのEIDの下4桁

事前インストール
 Ubigiのアプリはd-42Aにインストールしておく。

SIMロック解除コードはMy DocomoからSIMロック解除のページに行って手続きすると表示されます。d-42Aの購入の際にもSIMロック解除コードを受け取っているはずです。私のd-42AはSIMロック解除版で買っているはずですが、UbigiのeSIMをアクティベートするときに解除コードが必要になりました。
IMEIはAngroidの設定のデバイス情報で見ることができます。
EIDは購入したときの箱にかいてあるバーコード付きのコードです。Androidの設定のデバイス情報のSIMのステータスからも確認できます。

1. eSIMダウンロード用のQRコードを受け取る
https://cellulardata.ubigi.com/android/get-esim/のIf you prefer to get a QA code to install your eSIM, click here をクリックして、メールアドレス等を入力してQRコードを送ってもらう。ただし、このQRコードはなぜかd-42Aのカメラでは読み込めない。ここで使うのは一緒に送られてくるアクティベーションコード。

2. アクティベーションコードの入力
d-42Aの設定→ネットワークとインターネット→モバイルネットワーク→詳細設定→携帯通信会社の設定→画面ロックの解除
によりSIM情報設定のページに行く。このページはドコモ謹製のeSIM設定アプリらしく、他で使われていないものかもしれない。
SIM情報設定のページの右上のメニューから「SIM情報追加(QRコード利用)」を選び、直接入力を選択。ここで一旦ドコモのeSIMは無効にされる。しばらくしてアクティベーションコードの入力画面になるので、メールで受け取ったアクティベーションコード(LPA:1$consumer.rsp.world$....みたいなやつのLPA:の右側)を正しく入力する。$記号などもバグではなくこのままコードになっている。この段階で、EIDの下4桁を聞かれ、次にSIMロック解除コードを聞かれるのでそれぞれ入力する。SIMロック解除コードの入力が、いかにもネットワークのPINの入力に見えるので注意。3回間違えると端末がロックされる。「ロック解除」というボタンを見たら「SIMロック解除」と思いだそう!

3. アクティベートできたらAPNの設定を行う
アクティベートできたら、SIM情報設定アプリにNTT DOCOMO以外にeSIMの欄が1段増えている。そこを選んで編集で適当な名前を付ける。だだし、これではまだ使えない。通常のSIMと同じようにAPNを設定しなければならない。設定のモバイルネットワークの詳細設定のアクセスポイント名をクリック。APNの画面の右上の+記号からAPNを新規追加。名前は適当にUbigiなどとつける。APNをmobiledataに指定する。APNの1項目だけ入力したら右上のメニューから保存を選択して保存。

4. これでeSIMがアクティベートできたはず。
Ubigiのアプリを立ち上げると、Ubigiへのコネクションを発見して、ユーザー登録画面になる。ユーザー登録が終わると、プランをアプリ上で購入できる。Ubigiのプランを契約していない状態、またはプランの通信容量を使い切っている状態でも、Ubigiの設定はモバイル回線接続でできるため、通信容量が切れてからでも追加のプリペイドeSIMを購入することができる。

5.蛇足
日本で使えるUbigiのプリペイドeSIMのプランは 1GB(30日以内)で5ドルです。1GBで千円のドコモ追加プランよりお得です。もう少し容量の大きなプランを買えばもっと経済的になります。国内利用だけならIIJなどの格安eSIMでも同程度安くなりますが、Ubigiは世界各地の現地SIMをワンストップで簡単に契約するような感覚ですので便利そう。