レーザーから生じる光カオスを用い,AIの基本的な問題の一つ “強化学習”を超高速に実現

情報通信研究機構・主任研究員の成瀬誠氏,埼玉大学・大学院理工学研究科・教授の内田淳史氏,慶應義塾大学・大学院政策・メディア研究科・特任准教授の金成主氏らの研究グループは,半導体レーザーから生じる光カオスを用いて,1 GHzの適応速度を実現する超高速フォトニクスを応用した強化学習に成功したと発表した。

現在注目されている人工知能(AI)を支える機械学習では,画像認識などに優れた能力を発揮する深層学習と呼ばれる技術に並び,強化学習の技術も重要とされている。今回の成果はその強化学習への応用の可能性を示すもの。

図1 研究の背景
図1 研究の背景

強化学習とは,未知な環境で試行錯誤をしながら学習を行なう方法だが,強化学習の中心となる課題に,多数のスロットマシンが並んだカジノで儲けを最大にするにはどのようにするとよいか?という問題がある。儲けを最大化するには,「当たり台」を見つけるための試行錯誤=「試し打ち」をしなければならないが,過剰な試し打ちは損失になることがあり,当たり台が時々刻々と変わることもあり得る。

逆に,早々に試し打ちを打ち切ってしまうと,肝心の当たり台を見逃してしまうことが懸念される。このように「探索」と「決断」に難しいジレンマが存在しているという。この問題は「多本腕バンディット問題」として知られており,ワイヤレス通信における周波数の割当て,データセンターでの計算資源の割当て,ロボット制御,Web広告など,非常に重要な応用の基礎になっていることから,研究が進められている(図1)。

図2 レーザーカオスを用いたシステムと超高速な強化学習の実現
図2 レーザーカオスを用いたシステムと超高速な強化学習の実現

今回研究グループが発表した成果は,半導体レーザーを用いた時に生じる光のカオス現象を利用し,強化学習への応用を実証したもの(図2)。研究では,レーザーカオスを用いて,2台のスロットマシン(スロットマシン1,スロットマシン2)から「当たり台」(=当たり確率が高い台)を選ぶ問題の超高速な解決を実現した。

具体的には半導体レーザーから生成したレーザーカオス光を高速にサンプリングし,「閾値」との大小判定のみで意思決定を行なう。ここで閾値を「過去の戦歴」に基づいて上げ下げすることが重要であるとし,以前の成果(2015年8月19日付:単一光子を用いた意思決定の実証に成功)でも用いた「綱引き原理」と呼ばれている独自の方式を応用したという。

計測した信号レベルが「閾値より大きいとき」には「スロットマシン1」を選択すると意思決定し,「小さいとき」には「スロットマシン2」を選択すると意思決定する。閾値が十分大きいときは,計測される信号レベルは閾値より小さくなる場合が多くなり,「スロットマシン2」を選択するケースがほとんどとなる。

ところがカオスの乱雑さのために,場合によっては計測する信号レベルが閾値よりも大きくなることがあり,逆のスロットマシン「スロットマシン1」を選択することも生じる。このようなカオスから生まれる特長が「当たり台を速やかに発見する」ことに生かされた結果,適応速度1 GHzを実現する超高速フォトニクスを応用した超高速な強化学習が実証された。また,仮想的に生成した高速な擬似乱数(カラーノイズ)に比べても優れた性能を示すことも確認したという。

強化学習は,これまで計算機上のアルゴリズムとして実現されてきたが,高速化には大きな壁があった。今回,レーザーカオスが強化学習という人工知能分野に貢献できると研究によって実証されたことで,様々な展開が期待されるとしている。

まず,レーザーカオスを用いた方式は,広帯域性という光のメリットを生かしており,従来技術では不可能な高速性が実現できること,また,半導体レーザーなど成熟したフォトニクス技術を用いているため,安定性や集積性に優れたシステムの実現が可能になることを挙げている。

応用面では今後,高速・低レイテンシの実現が強く期待されているシステムのアービトレーション(調停)応用や超高速取引での意思決定としてフィンテックなどへの展開を検討する予定としている。◇

(月刊OPTRONICS 2017年10月号掲載)