光速で学習、意思決定

産官学界でいま脚光を浴びている人工知能(AI)。その基盤技術である機械学習においては、画像認識などに優れた能力を発揮する「深層学習」とともに、「強化学習」が重要である。

強化学習は、未知な環境で試行錯誤をしながら学習を行う方法であり、中心課題に、多数のスロットマシンが並んだカジノで、儲けを最大にするにはどうすれば良いか? というものがある。最大化のためには、「当たり台」を見つける試行錯誤、すなわち「試し打ち」が必要である。が、過剰な試し打ちは損失になり、当たり台が遷移していることもあり得る。早々に試し打ちを止めてしまうと、肝心の当たり台を見逃すことがある。つまり、「探索」と「決断」にジレンマが存在していて、これは「多本腕バンディット問題」として知られている。

それはワイヤレス通信における周波数の割当て、データセンタでの計算資源の割当て、ロボット制御、Web広告など、非常に重要な応用の基礎になっていることから、熱心な研究が行われているという。

情報通信研究機構(NICT)の成瀬 誠主任研究員、埼玉大学 大学院理工学研究科 内田 淳史教授、慶應義塾大学大学院政策・メディア研究科 金 成主特任准教授らは、半導体レーザーから生じる光カオスを用いて、適応速度1ギガヘルツを実現する超高速フォトニクスを応用した強化学習に、世界で初めて成功した。

計算機アルゴリズムではなく、「自然界の物理現象を直接用いた強化学習」を世界に先駆けて提案し、すでに単一光子を用いた方式を実現している。同研究グループは、光の高速性に着目し、レーザーカオス現象が生み出す乱雑な信号と、独自に開発した強化学習方式を組み合わせることで、「当たり確率の未知な2台のスロットマシンから当たり確率の高い台を選ぶ問題」(2本腕バンディット問題)を、光の極限性能を生かし、高速に、物理的に解決した。

レーザーカオス光を高速にサンプリングし、「閾値」との大小判定のみで意思決定を行う。その際重要な、以前の成果でも用いた、閾値を「過去の戦歴」に基づいて上げ下げする「綱引き原理」と呼ぶ独自方式を応用している。今回の研究では、レーザーカオス現象の超高速性により、情報が入力されてから出力されるまでのレイテンシが 1ns(10億分の1秒)の意思決定が確認され、仮想的に生成した高速な擬似乱数(カラーノイズ)に比べても優れた性能を示すことが確認された。

成熟したフォトニクス技術によって安定性や集積性に優れたシステムの実現が可能であり、より高速なコンピューティングのため計算資源を瞬時に調停するアービトレーションや、無線通信における周波数の瞬時割当てなど、AIやIoT(Internet of Things)の基盤技術として大きな貢献が期待される。

研究成果は、英科学誌ネイチャーの「Scientific Reports」(電子版)に掲載された。