IJCAI査読

IJCAI2019には6,131件の投稿があったそうな.予想外の数にプログラムチェアも大変そうで,査読者の追加募集をしていた.それでもシニアな査読者が十分に集まらなかったのか,今回の査読割り当てはフルペーパー6件とかなり重い.トップカンファレンスの査読はエネルギーを使うので4件ぐらいまでにしてもらいたいところなのだが.

人工知能の差別問題

意図せず人工知能差別意識を学習させてしまうことが問題となっています.

jp.reuters.com

原因は,人工知能(正確には機械学習アルゴリズム)に問題があるのではなく,学習に与えるデータの偏りが原因で問題が発生しているのです.

記事のアマゾンの技術職の採用判断の例では,過去10年間の採用実績をデータのほとんどが男性であったため,女性よりも男性を採用する傾向を学習してしまっています.

今の深層学習を含め機械学習は,基本的には入力変数  x=(x_1, x_2, ..., x_n) に対する判断  y \in \{y_1, ..., y_r\}の集合が与えられたとき, x yに対応するそれぞれ対応する確率変数 X Yに関して予測する(確率)モデル P(Y|X)を構築することにより,新しい入力 x'に対して  P(Y=y'|X=x')が最大になる y'を予測します.SVMなど学習アルゴリズムによっては,予測モデルが確率モデルではない場合もありますが,ここでは確率モデルとしておきます.
学習アルゴリズムは,入力変数のうちのどの変数がどの程度出力の判断に影響する因子となっているかを学習するため,採用される人がほとんど男というデータを与えると,自然と男であることを採用の因子として強めることになります.

UC BerkeleyのMoritz Hardt助教は,男女など特定の条件に関する公平さを Demographic Parity (人口動態学的一致性)と定義しています.
blog.mrtz.org

まず,公平性を確保したい因子に対する変数を指定し,Protected Variable(保護された変数)と呼ぶことにします.

Demographic Parity (DP) はあるProtected Variable Xに関して,下記で定義される.

 P(Y) = P(Y|X=x) for all the values  x for  X

つまり,Xがどのような値をとっても結果に依存しないことを指しています.

 x_iが男maleが女femaleかを表す変数であるとすると, P(Y)=P(Y|X_i=male)=P(Y|X_i=female)とならなれけばならないということです.

それならば最初からProtected Varialbe  x_iを学習に入れなければいいように思いますが,そうはいかない場合もあります.たとえば,単語の意味を数値ベクトルで表現するword2vecのような,単語の表現学習においてもバイアスが生じます. 2018 AAAI/ACM Conference on AI, Ethics, and Society で発表されたMitigating Unwanted Biases with Adversarial Learningの中では,Zhangらが下の表のような例を挙げています.he:she=doctor:? これは,heがsheに対応するとするとdoctorは何に対応するかという類推を表現したもので,単語の埋め込み表現の評価法としてよく用いられます.たとえば,UK:London=Japan:?のようにイギリスのロンドンに相当する日本のもの?を予測する表現として使われます.

f:id:YutakaSasaki:20190304163822p:plain
引用

女性の職業に近いものを左のように選んでしまう傾向があります.これを敵対的学習によりバイアスを右のように修正するというのがこの論文の面白いところです.

DeepL

DeepLの翻訳の性能がさらに向上している.フランス語ー英語の翻訳を試したみると,ほとんどの文が普通に理解できる英語になって出てくる.以前,上手く訳せないといわれていた文も正しく訳せるようになっている.タイピングしながら(正しい)訳文が出てくるところがさらに良くできている.超伝導に関するフランス語の文も普通に読める英語になる.

https://www.deepl.com/translator

現在,日本語には対応していないが,もし日本語に対応したら,コンピュータ将棋で棋士が強くなったように,コンピュータ翻訳相手に英語を学ぶ時代が来るかもしれない.少し大げさになるが,英語教育のやりかた自体も見直す時期が来ているように思える.

言語処理学会2019プログラム編成

NLP2019の投稿件数が398件と過去最高になりました。投稿していただいた皆様ありがとうございました。

前回は332件でしたから、2割増ぐらいになっています。実際は今回からワークショップを本会議のテーマセッションに取り込んでいますので、実質は1割5分増ぐらいです。

言語処理業界がますます活発になっていることが裏付けられて嬉しい限りです。

現在2月7日のプログラム公開に向けて、非常にタイトなスケジュールの中で準備中ですので、今しばらくお待ちください。

チュートリアルと招待講演の日時は大会HPで既に公開しましたのでご参照ください。

自動走行講演

11月28日に国際会議JIST2018で自動走行オントロジーについての
招待講演をしてきました。

少しNLPを使った知識獲得の紹介もしてあります。現在、交通教則に交通関係のアノテーションをしていることろで、まだまだ品質が確保できていませんが、アノテーション自体は一周終わっています。

そのうち研究用に公開します。

Times Higher Education World University Rankings

THEのサーベイの依頼が今年も届いた。

普通に考えて、やはり大規模有名大学が有利な設問になっている。
前回候補になかった豊田工大が選択リストに入っているので、対象大学の更新はされているが、専門の狭い小規模大学は不利。たとえば、先進的な研究をしている大学を15挙げろといわれると、自然に大規模有名大学ばかりになってしまう。