ニューラルネットワークにて双方向の3D世界を構築する

サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する、人間中心の社会(Society)をめざす。


日本政府の科学技術政策「Society5.0」(内閣府Web)では、あらゆるモノがネットにつながる「IoT」や人工知能(AI)を活用して、一人ひとりが快適に暮らし活躍できる「超スマート社会」をそのように定義している。現在、世界各地では、eスポーツが盛大に行われていて、各種ロボットの実用化と新たな研究も進み、クルマはインフォテイメント(情報×娯楽)を軸にしたコネクテッドカーから、さらに自律走行する時代に突入しようとしている。

ゲーミング、自動車、ロボティクス、仮想現実(VR)の世界において、「視覚世界のダイナミクスをモデル化および再創造する能力は、知的エージェントの構築に不可欠である。純粋に科学的な関心を別にしても、継続的な視覚経験を人工的に作成するための学習は、コンピュータービジョンやロボティクス、コンピューターグラフィックスといった分野で多様な用途を持つ」(コーネル大学ライブラリ"arXiv.org"の研究者論文PDFより

仮想世界のあらゆるオブジェクトは従来、個々にモデルを生成していて、相当な時間と費用を要していたという。GPUコンピューティングの雄NVIDIA社は、モントリオールで開催の「NeurIPS 2018」において12月3日、現実世界の動画でトレーニングしたニューラルネットワーク(脳神経回路網)モデルを使って、開発者が完全に人工的かつ双方向で3D環境をレンダリングすることを可能にする、画期的な取り組みを発表した(デモ動画:YouTube)。

同社はAIインタラクティブな世界を創出するために、現実のビデオから自動的に学習するモデルを採用して、建物や樹木、車両などのオブジェクトをレンダリングする技術を研究。このテクノロジにより、ゲーミングや自動車、建築、ロボティクス、VRのための仮想世界を迅速に構築できる――。たとえば、現実世界の場所をもとにしたインタラクティブな場面を生成したり、お気に入りのポップスターのダンスについて、自分がそっくりそのまま踊っているようなシーンをファンに見せたりすることも可能になるだろうという。

生成ニューラルネットワークは、照明や素材、ダイナミクスといった世界の外観をモデル化することを学習した。シーンがすべて人工的に生成されるので、オブジェクトの削除、修正または追加といった編集も簡単に行えるという。研究成果の1つが今回のデモ動画にみるシンプルなドライブ ゲームであり、参加者が都会のシーンを走行することができる。

あらゆるコンテンツは、従来のグラフィックスエンジンで生成された3D世界のスケッチを動画に変換するAIを使って、インタラクティブにレンダリングされるとのことだ。