皮膚科医vs人工知能

Annals of Oncology に5/28付けて興味深い論文が掲載された。

皮膚ガンの画像診断の正確性を医者とAIで比較すると、AIの方が性能が高かったと報告されている。

いろいろな比較をしていますが、一番分かりやすい比較は、皮膚ガン(メラノーマ)の診断の正確性を、100枚のテスト用画像を使って、世界中から参加した58人の皮膚科医とAIについて比較した結果です。皮膚科医のROC AUCスコアが0.79(±0.06)、AIが0.86でした。ROC AUCは高い程良く、最大が1になります。一般向けに非常にざっくり言えば、ROC AUCは画像から皮膚ガンを漏れなく正しく診断した割合です。経験5年以上の皮膚科医30人に絞ってスコアを計算すれば、ROC AUCスコアが0.82(±0.06)ですのでAIとの差はなくなります。

医療は専門外ですので、経験年数の多い皮膚科医でのスコアが0.82程度という結果は意外ですが、100枚の中には診断が難しい画像が含まれているようです。実際の診察では、他の様々な検査を組み合わせますので、画像だけでの診断だとこれぐらいということなのでしょう。中には病理検査をしないと分からないものもあるのかもしれません。診療情報や拡大画像を皮膚科医に提供すると、同スコアは58人全体でも0.82(±0.06)に改善しますのでAIとの有意差はなくなります。

AIは、GoogleのInception-v4という最新の畳み込みニューラルネット(CNN)を使っています。InceptionとResNetを導入したCNNで、画像分類において現在、世界トップレベルの性能を出しています。学習には100万枚以上の病名ラベル付きの画像を使っています。

詳しくは論文をご覧ください。
https://academic.oup.com/annonc/advance-article/doi/10.1093/annonc/mdy166/5004443

なお、本論文に関するニュース記事の中には、一部の目立つスコアをとってきて、AIが95%正解すると書いてあるものもありますが、ROC AUCのスコアで比べないと、あまり公平な比較になっていないと思います。