産業技術総合研究所(産総研)は東京大学と共同で,化学物質の分子構造からその物質の物性値を高速,高精度に検証可能な形で予測する手法を開発した(ニュースリリース)。
化学物質は,光の吸収や熱伝導などの強弱など,さまざまな物性値を示し,その物性値は,構成する元素の種類や分子の構造,化学結合の強さなどによって決まる。このような化学物質の物性値を知ることは材料開発において重要となる。
そのためには,実際にその物質を合成しそれぞれの物性値を測定することと,化学物質の分子構造をコンピューターに入力し理論計算することが行なわれている。しかし,どちらも高度な設備,専門知識,経験,時間が必要なため,高速・高精度で予測可能にする手法が求められていた。
分子構造は,元素とその位置,つまり3次元立体構造データとして表現される。近年,どんな大きさや構造の分子でも,分子構造のデータをそのまま入力して物質の物性値を予測できる柔軟な機械学習の手法が提案され始めている。しかし,従来手法では学習結果の解釈が難しく,学習結果の妥当性が検証できないという課題があった。
今回,物理化学の分野で用いられている近似式に基づいて,分子中の原子間に,化学結合などの相互作用の「強さの変化」を「バネの伸び縮み」で表すような関数(ポテンシャル)を設定した。そしてその関数を表すニューラルネット(機械学習モデル)を,大規模データで学習させる手法を考案した。この関数は,原子間の相互作用や化学結合の強さに対応するため,学習結果の物理化学的な解釈と検証ができる。
今回考案した手法を用い,13万を越える化合物からなる大規模なデータベースを学習させて,予測の計算時間と精度を評価した結果,分子が示すさまざまな物性値を理論計算の1万倍以上の速さで,理論計算と同程度の高精度で予測できることが確認できた。
また,原子間の化学結合(単結合や二重結合)の強さを示すポテンシャルについて,物理化学の理論計算によって得られたものと比較・検証したところ,それらが良く一致することが確認できた。これは,今回の手法が,物理化学的に解釈できる情報をデータから学習したことを示すものだという。
物理学や化学などのデータについて何らかの予測を行なう際には,コンピューターによる学習結果を,人間が既に持っている物理学や化学の知識や理論計算と照らし合わせて,その結果の妥当性を検証することが重要だが,今回の手法は,物質の物性値の予測だけでなく,妥当性の検証も含めたプロセス全体を加速できるとする。
研究グループは今後,今回開発した手法をより高精度化するとともに,手法を活用して材料開発を大幅に加速し,新たな化学物質の発見につなげていくとしている。