物質・材料研究機構(NIMS)は,計測装置より出力されるデータから,計測条件や試料情報等のメタ情報を抽出し,機械可読性の高いXMLファイルへと変換するツールを開発した(ニュースリリース)。
現在,材料データを機械学習によって統計処理し新材料の開発を目指すデータ駆動型の材料開発が注目を集めている。しかし,統計処理の元となる計測データの多くは,同一のメーカーの装置であっても装置が異なるとデータ形式も異なることがあり,相互比較が難しいという課題があった。
また,ファイルに計測条件などのメタ情報が記録されていないため,対象とするデータの検索も難しく,機械学習で利活用しやすいデータ形式へ変換するツールの開発が求められていた。
今回,研究グループは,材料評価で広く用いられているX線光電子分光法(XPS)とX線回折法(XRD)の2種の計測データについて,計測メーカー2社(アルバック・ファイ,リガク)の協力のもと,メタ情報を付与するための用語変換を定義し,機械学習で主要となるパラメータを抽出するツールを開発した。
第1弾は,アルバック・ファイQuantera SXM等のファイル形式で生成されたXPSスペクトル,およびリガクSmartLabのファイル形式で生成された粉末XRDパターンの計測データに対応している。今後も引き続き計測メーカーの枠を広げるとともに,XRDやXPSに限定せず,対応する装置や対象とする計測技術分野の拡大を図っていく予定とする。
また,メタ情報抽出ツールのほか,バイナリデータのテキスト変換ツールや数値データ行列の構文解析プログラム (パーサ) を含むスペクトル等への視覚化変換ツールをあわせ,「M-DaC(Materials Data Conversion Tools)」と命名してNIMS-DPFCのウェブサイトにて公開した。
M-DaCのソースコードの一部はMITライセンスのもと,利用者自身で改良することも可能。また,装置が出力したサンプル用生データも公開しており,「クリエイティブ・コモンズ・ライセンスの表示‐非営利4.0国際(CC BY-NC 4.0)」のもとでの利用ができる。
研究グループは,今回の研究により,AIや機械学習で利用しやすいデータの創出・蓄積を効率的に行なえるようになり,データ科学を活用した材料開発の促進が期待できるとしている。