東北大学の研究グループは,深層学習が医用画像中のどこに注目して診断したのかを可視化する技術を用いて,その注目領域の医学的な妥当性を詳しく解析した(ニュースリリース)。
近年,人工知能(AI)の分野では,深層学習などの新たな技術による顕著な進展があり,医療画像診断への応用においては専門医に匹敵する高い性能を示すという報告が多くある。
しかし,これまでの評価方法で高い性能を示していても,実際の臨床現場で同じ高性能を発揮できるのか,その信頼性について懸念が高まっている。特に,深層学習モデルが注目した医用画像の特徴が医学的所見とどの程度一致しているかなどの妥当性の検証は不十分であり,臨床において,医師の診断結果との乖離を引き起こす可能性が危惧されている。
研究グループは,法医学における死後画像を用いた溺水診断を例に取り上げ,先行研究で高性能を達成した深層学習モデルの医学的妥当性を詳しく検証した。具体的には,深層学習モデルが注目した画像特徴を可視化技術で特定し注目領域とした。
また,放射線診断医の画像所見に基づいて注釈した画像領域を医学的な重要領域と定義し,モデルの注目領域と比較した。その結果,モデルの注目領域は,少ない場合だと30%しか医学的な重要領域と一致しなかった。
また,80%程度一致する場合でも,領域中で重要視する位置が異なっていた。今回検証した深層学習モデルが先行研究において90%以上の高い正答率で溺死を分類可能であったと報告されていることから考えると,モデルと臨床上の医学的所見の間に予想外に大きな齟齬があったといえる。
これまでの研究で,深層学習モデルが不適切な根拠により導き出した答えは思わぬ誤診の原因になり,異なる性質を持つ症例画像に対して予想外の深層学習モデルの性能劣化に繋がる危険性が報告されている。
研究グループは,この研究はAIによる医用画像診断の医学的な妥当性に懸念があることを示しており,今後,新たな訓練法の開発など,さらなる検証と対策を進めることで,より安全性の高いAIの臨床応用が期待されるとしている。