人のデータなしに深層強化学習、ロボットアームで自然な動きを実現

人間の運動は多数の筋骨格を制御してはじめて成立する。多数の関節の冗長性問題と多数の筋肉の冗長性問題を解決する必要があるが、われわれ人間自身はそれを容易に解決していて、どのようなメカニズムでこの多自由度空間問題を解決しているのか、かねてより議論がなされてきた。

20世紀、ニコライ・ベルンシュタインの階層的運動制御の考え方に基づいて運動シナジーの存在が示唆された。その後の研究で運動シナジーが人間や生物の運動制御で用いられていることが確認されたが、中枢神経がどのような法則に基づき、どのような機序で生成されているかの計算論的数理モデル構築には至っていない。人間らしい動きを生成する、数学的最適化計算は、環境と身体の数学的モデルを必要とする。

真の意味で未知の物理的環境下での運動学習の方法としての解決策やシナジー生成メカニズムを明らかにすることは容易ではなく、どのような計算指針でシナジーが生成されるのかを扱うものがほぼ皆無だったという。

東北大学NEURO-ROBOTICS LABは、人間の計測データを使わずに深層強化学習によって自然なリーチング運動パターンを生成する手法を提案。人間の計測データを一切用いずに、運動習熟レベルが進むほど運動シナジー強度が増大していくプロセスを定量的に再現することに成功した(紹介動画YouTube)。今回、深層強化学習において環境適応性を確保しつつ運動シナジーが発現するプロセスを再現できるかどうかを検証した。

フィードバック制御器と共用することで深層学習速度を約3割増しにでき、エネルギー効率性とシナジー度合いも一層高まることを定量的に示した。フィードバック制御依存からフィードフォワード制御にシフトする運動学習プロセスを深層強化学習フレームワークで再現した。新しいアルゴリズムへの示唆に富む情報となることが期待されるという。研究成果はIEEEジャーナルに掲載された。