東京大学の研究グループは、量子光学を利用して、2人の利用者が限られた資源を取り合う状況で、互いに相談しなくても衝突を避けられる新しい手法を提案した(ニュースリリース)。さらに、この手法が有効に働くことを数値シミュレーションで確認したという。

無線通信や情報通信の現場では、複数の利用者が通信機器により通信環境の最も良い周波数帯や通信路を同時に選ぶと通信の混雑が起こり、全体として通信品質が下がる。こうした問題は、試行錯誤しながらより良い選択を学ぶ強化学習の一種である競合的多本腕バンディット問題として表すことができる。バンディット問題は、利用者をプレイヤー、通信路などの選択肢をスロットマシンに置き換え、プレイヤーがスロットマシンから得られる報酬の最大化を目指す問題と定義できる。
今回の研究のような競合的な場合には、複数人のプレイヤーが全プレイヤーの総報酬最大化を目指す問題として定義でき、プレイヤーが同じスロットを選んだ場合(選択衝突)はそのスロットマシンから得られた報酬をプレイヤーが山分けして得ることで再現で着る。しかし、プレイヤー同士が互いの選択内容を毎回教え合わずに、報酬最大化を目指しながら選択衝突も避けることは簡単ではない。本問題を解決する従来の光学的な方式では、問題の解決のために減衰器を利用した手法を提案していた。
しかし、選択肢数が増えるとシステムの稼働効率が急速に落ち、加えて選択肢の並び順により性能が変化してしまうという課題があった。研究グループは、各利用者がどの選択肢をどれだけ選びたいかという情報を、光の渦の状態である軌道角運動量に符号化する方式を考案した。そして、2つの光を重ねたときに起こる量子干渉を利用して、2人が同じ選択肢を選ぼうとすると「互いに打ち消し合う」ためにその結果が理論的に起きないように設計した。数値シミュレーションでは、 5個および10個の選択肢を持つ条件で、従来法より性能が良く、選択肢の並べ替えにも性能が影響されにくいことを確認した。
今回の研究は、光のもつ自然な物理現象をそのまま「意思決定の調整」に利用する新しい情報処理の考え方を示すものです。今後、より多人数への拡張や実機での検証が進めば、無線通信の周波数割り当て、データセンター内の光通信路の制御、内部情報を細かく共有しなくてもよい分散型意思決定などへの発展が期待されるとしている。

(図左)選択肢数が5の場合の結果であり、Env. 1-1とEnv. 1-2はスロットマシンが同じ設定の組み合わせ
で、スロットの並び順が異なる。提案手法(オレンジ、黄色)は従来手法(青色、水色)と比べて性能が良く、2つの環境で性能が変わらないことからスロットの並び順に殆ど影響されていないことがわかる。
(図右)選択肢数が10の場合の結果であり、Env. 2-1、Env. 2-2、Env. 2-3はスロットマシンの設定が同じ
組み合わせで、スロットの並び順が異なる。選択肢数が5の場合と同様の結果が得られていることがわかる。



