BERTは外部知識か?

自然言語処理の論文で、外部知識を使っていない方法の中では、我々の方法が一番スコアが高い、という主張をしたいことがある。ただ、よく考えると今は多くの研究でBERTを使っているので、厳密には外部知識を使っていないとは言い難い。
タスクによりますが、場合によってはテストデータに含まれる文でBERTを学習していて、そのことが(気が付かないうちに)性能に影響している可能性もあります。この場合は期せずしてトランスダクティブな評価になっている。最悪のケースでは、例えば、英文の穴埋め問題をBERTを使って解かせたときに、実はテスト文と同じ文でBERTの学習をしているということもありうる。この場合は、トランスダクティブというより、学習時にテストデータの答えを見ていることになってしまう。
今の研究の流れでBERT系の事前学習を使わないことは考えらないので、BERTがだめということではないのだけれど、外部知識を使っていないという主張をするときには(自戒の意味でも)気を付けないといけない。今の若い人はBERTありきで研究をしているので、ではどうすれば外部知識を使わないで評価できるかという疑問を持つと思う。厳密には、与えられた訓練データ以外のものは何も使わないでテストするということになる。例えば、単語やトークンを昔のようにOne Hotベクトルで表現することになる。BERTも訓練データだけで学習したものを使えば、外部知識を使っていることにはならない(相当大きな訓練データでないと効果は少ないと思いますが)。
逆から考えると、今やもう訓練データだけを使って外部知識なしで評価するという時代ではなく、いかに外部知識を事前学習などで活用するかという点で勝負する研究にシフトしているという見方もできます。
少し宣伝になりますが、我々の研究室では、薬学分野の知識を知識グラフで表現して深層言語処理に組み込むと性能が上がることを確認しています。

自動翻訳の品質確認

DeepLによる日本語のアナウンスの翻訳結果を見てみた。

原文

台風14号の接近に伴い、9月19日(月)の夕方から列車の運転本数を減らし、夜までに列車の運転を取りやめる可能性がございます。 運行計画の詳細につきましては、今後の状況を踏まえ、9月19日(月)の11時頃を目途にお知らせする予定です。 また、9月20日(火)についても、始発より運転を見合わせる可能性がございます。
今後の気象情報と列車の運行情報にご注意ください。

DeepLによる訳文

Due to the approach of Typhoon No. 14, the number of train services will be reduced from the evening of Monday, September 19, and may be cancelled by the evening. We will inform you of the details of the operation plan around 11:00 a.m. on Monday, September 19, based on the future situation. Also on Tuesday, September 20, trains may be suspended from the first departure.
Please check the weather and train operation information carefully.


Translated with www.DeepL.com/Translator (free version)

かなりの出来栄えです。一瞬で翻訳されますが、たぶん私が5分ぐらいかけて書く英語より遥かに良いと思います。first departure は first train の方がベターでしょうか。future situation は、原文の意図がどのあたりにあるかによりますが (weather) forecasting の方が意図が伝わりそうです。

参考までに上記日本語アナウンス文に対応した英語のアナウンス文

Due to a nearby typhoon, the number of trains operating will decrease from the evening of September 19, and there is a possibility that the train will stop by the night.
The next notification is planned for September 19 at around 11.
Please check future weather reports and information on train operation.

内容はだいたい伝わりますが、英語的なスムーズさが不足しているように感じる人は多いのではないでしょうか。

特に何かを批判するつもりはなく、自動翻訳が直訳調ではなくなってきていることを確認できたというお話です。海外のIT企業には、日本人向けのマニュアルやホームページを自動翻訳で提示しているところが結構あります。

tqdm備忘録

tqdmを使って端末環境で学習時の進捗を表示すると、表示がずれていき画面が見にくくなることがある。あまり推奨されないが、ひとりで使っている環境ならtqdmモジュールを直接書き換えることで解決できる。対処法ではあるが、tqdmモジュールの中のstd.pyの143行目あたりのUTFの代入値をUTF=u"-#"のように書き換えると進捗にあわせて#が増えていくようになる。画面も乱れない。
なお、自分のPython環境で該当するstd.pyが確信を持ってわからない人や自分が何をしているのかわからない人は、経験値が足らないのでこのような対処法に手をだすべきではありません。修正の結果不具合が発生する可能性もありますので自己責任でお願いします。
Jupyter Notebook用には別の正当な対処法がありますのでググってください。

More than 10,000 reads

ResearchGate にアップロードされいる論文の読者数をResearchGateがカウントしていて、F値に関する解説文の読者数が10,000を超えたというメールが届いた。

参照数も500を超えていて(ResearchGate 調べ)、"This item's Research Interest is higher than 99% of research items on ResearchGate." らしい。ResearchGate に登録されている全論文の中で、研究的な興味の評価において上位1%以内に入っているということのようだ。ただのメモなのですが。15年前に自分が書いたものをいまだに誰かが週60人ぐらいのペースで読んでくれているというのはありがたいことです。

SNL2022 対面開催

第6回のSNL(Symbolic-Neural Learning)ワークショップを名古屋で対面形式で開催します。コロナ禍後、対面での国内での国際会議はまだそんなに数が多くないのではと思います。小規模な国際会議のメリットで、決断してから開催までのリードタイムを短くできたが要因でしょう。コロナの状況を見て、3月に対面開催を決断してから7月に対面のみで開催というのは大きな国際会議では難しいですから。
SNLワークショップは、2017年に深層学習手法に知識構造などの記号的情報を融合する研究を盛り上げるためにスタートしました。最初は、豊田工大と豊田工大シカゴ校(TTIC)が中心となっていましたが、今は産総研理研大阪大学東工大、統数研に共催・協賛をいただいています。
プログラムはほぼ確定していましたが、最後のひとりの基調講演者がまだ確定しておりませんでした。昨日、Ed Hovy先生から基調講演をいただけるという返事がありました。これで、マイクロソフトの池内先生、Dan Roth先生、Sebastian Riedel先生、Ed Hovy先生に基調講演をいただけ、ワークショップの講演者が豪華になりました。国内を中心にした招待講演者も顕著な成果を挙げられている方ばかりですので盛り上がりそうです。これで懇親会もできればいいのですが、残念ながらまだ国内では懇親会ができる環境は整っていません。もったいないことです。
参加登録は http://www.tti-coin.jp/SNL2022/registration.html からどうぞ。6/19までが早期登録料金です。また、ポスター発表の投稿も募集中です。

dtab d-42AでUbigi

前回の流れの続きですが、結局仕事用のタブレットとしてd42aを少し前に購入しました。
最近、海外での利用を考えてUbigi のeSIMを導入したときのメモ。

ドコモの通信容量十分のプランの利用者はそのまま海外利用できるのですが、私のdtabはWifiがある環境での利用を想定していますので1G/月のプランになっています。そのため海外で旅行中に利用するにはデータ容量1GBを1100円で追加で購入する必要があります。他には、現地SIMを買うという手もあり、今回はd-42AがeSIM(のみ)であることを活かして現地SIMよりも便利な世界中どこでも使えるeSIMの契約をしてみました。世界中で使えるので日本で使えるプリペイドの契約もあります。Ubigiはいくつか存在する世界各国対応のモバイルインターネット接続を提供している会社のひとつで、この会社はNTTが資本元になっていますので少し安心感があります。

ただ、d-42AへのUbigiのeSIMのインストールは難航しました。ます、Ubigiのアプリがd-42Aに対応していないようで、アプリを立ち上げて、最初のステップとしてeSIMのインストールボタンを押しても反応がありません。このステップを超えないとユーザー登録ができないという仕様ですので、ここで詰んでしまいました。試行錯誤ののち、まずeSIMインストール用のQRコードをUbigiのサイトから送信し、QRコードではなく、アクティベーションコードをAndroidのeSIM設定で入力して、ロック解除のコードを入れて、UbigiのAPNを設定すると、やっとUbigiのアプリからアカウントが作れるので、そのアカウントでプリペイドプランを購入すると使えました。簡単に書いていますが、結構面倒でした。

事前に必要な情報
 d-42AのSIMロック解除コード
 d-42A のIMEI
 d-42AのEIDの下4桁

事前インストール
 Ubigiのアプリはd-42Aにインストールしておく。

SIMロック解除コードはMy DocomoからSIMロック解除のページに行って手続きすると表示されます。d-42Aの購入の際にもSIMロック解除コードを受け取っているはずです。私のd-42AはSIMロック解除版で買っているはずですが、UbigiのeSIMをアクティベートするときに解除コードが必要になりました。
IMEIはAngroidの設定のデバイス情報で見ることができます。
EIDは購入したときの箱にかいてあるバーコード付きのコードです。Androidの設定のデバイス情報のSIMのステータスからも確認できます。

1. eSIMダウンロード用のQRコードを受け取る
https://cellulardata.ubigi.com/android/get-esim/のIf you prefer to get a QA code to install your eSIM, click here をクリックして、メールアドレス等を入力してQRコードを送ってもらう。ただし、このQRコードはなぜかd-42Aのカメラでは読み込めない。ここで使うのは一緒に送られてくるアクティベーションコード。

2. アクティベーションコードの入力
d-42Aの設定→ネットワークとインターネット→モバイルネットワーク→詳細設定→携帯通信会社の設定→画面ロックの解除
によりSIM情報設定のページに行く。このページはドコモ謹製のeSIM設定アプリらしく、他で使われていないものかもしれない。
SIM情報設定のページの右上のメニューから「SIM情報追加(QRコード利用)」を選び、直接入力を選択。ここで一旦ドコモのeSIMは無効にされる。しばらくしてアクティベーションコードの入力画面になるので、メールで受け取ったアクティベーションコード(LPA:1$consumer.rsp.world$....みたいなやつのLPA:の右側)を正しく入力する。$記号などもバグではなくこのままコードになっている。この段階で、EIDの下4桁を聞かれ、次にSIMロック解除コードを聞かれるのでそれぞれ入力する。SIMロック解除コードの入力が、いかにもネットワークのPINの入力に見えるので注意。3回間違えると端末がロックされる。「ロック解除」というボタンを見たら「SIMロック解除」と思いだそう!

3. アクティベートできたらAPNの設定を行う
アクティベートできたら、SIM情報設定アプリにNTT DOCOMO以外にeSIMの欄が1段増えている。そこを選んで編集で適当な名前を付ける。だだし、これではまだ使えない。通常のSIMと同じようにAPNを設定しなければならない。設定のモバイルネットワークの詳細設定のアクセスポイント名をクリック。APNの画面の右上の+記号からAPNを新規追加。名前は適当にUbigiなどとつける。APNをmobiledataに指定する。APNの1項目だけ入力したら右上のメニューから保存を選択して保存。

4. これでeSIMがアクティベートできたはず。
Ubigiのアプリを立ち上げると、Ubigiへのコネクションを発見して、ユーザー登録画面になる。ユーザー登録が終わると、プランをアプリ上で購入できる。Ubigiのプランを契約していない状態、またはプランの通信容量を使い切っている状態でも、Ubigiの設定はモバイル回線接続でできるため、通信容量が切れてからでも追加のプリペイドeSIMを購入することができる。

5.蛇足
日本で使えるUbigiのプリペイドeSIMのプランは 1GB(30日以内)で5ドルです。1GBで千円のドコモ追加プランよりお得です。もう少し容量の大きなプランを買えばもっと経済的になります。国内利用だけならIIJなどの格安eSIMでも同程度安くなりますが、Ubigiは世界各地の現地SIMをワンストップで簡単に契約するような感覚ですので便利そう。

続Nexus 7

余談のつづき。

未だにNexus 7 2013と同等なタブレットがない現状をどこかのメーカーになんとかしてもらいたいものです。LineageosでNexus 7を再利用できていますが、メイン機にするはバッテリの持ちが悪くなってきていて信頼性も低下していますし、反応が少し遅い感じがします。それでも10年前の機種が未だに他の機種に超えられていないのは画期的なことではあります。なお、iPad Miniという選択肢は考えないことにします。Machベースで開発されたiOSオープンソースではないので、ここではAndroidだけを対象に考えます。

Nexus 7 2013の仕様は次のとおりです。

もう、ほぼこのままCPUとメモリを少しだけ強化してNano SIMまたはeSIMに改良して5万円ぐらいで発売してもらえれば十分なのですが。Asus ZenPad 8.0が後継相当でしたが液晶が1280x800と少し弱いし、こちらも販売終了していて中古品しか見当たりません。

スマホの画面が大きくなってきていて7インチぐらいの機種が出てきていますが、16:9~2:1の細長い画面のためインチ数ほどの画面の広さと見易さを感じません。7インチでWUXGA上着のポケットに丁度入る薄くて軽いタブレットが理想なのですが誰か作ってくれないでしょうか。

Wifiモデルなら選択肢があるのですがLTEとなるとほぼないに等しい。結局延々調査した結果、今いろいろな意味で安心して使えそうな7~8インチのLTEタブレットはドコモのdtab Compact d-42Aに落ち着きました。ただ、少し厚みを感じるのと、大きさも少し大きめで、重さも326gと少し重く、Nexus 7ほどの愛着を感じられません。QiとFelicaにも対応していません。LenovoOEMですが、同じ製品はLenovoブランドでは発売されていません。ほとんど流通していませんがLENOVO TAB M8 (LTE) が存在することはしますが液晶の解像度は低くなっていて1280x800。Googleタブレットを来年発売するようですのでそれに期待することにします。