世界最高精度!荷ほどき取り出し作業等の複雑な人の動きをAI認識

人工知能(AI)技術が日進月歩である。近年、深層学習によって映像から人の行動を認識できるようになりつつある。

一般に、AIによる人の映像認識では、手や肘、肩などの骨格の各関節位置の時間的変化を特徴量として抽出し、立つ、座るなどの簡単な行動パターンと紐づけて認識していたという。富士通研究所は、映像による人の行動認識において、箱を開けて物品を取り出すなど、複数の関節が連動して動くような複雑な行動についても、隣り合う各関節の位置や接続関係を用い、深層学習で高精度に認識できる技術を開発した。

行動認識分野における骨格データを用いた世界標準のベンチマーク(Kinetics-Skelton)において、隣り合う関節の情報を用いない従来技術の正解率を大きく上回り、世界最高精度を達成(同社調べ)した。同技術は、工場での作業手順の確認や公共機関での危険行動の検知などに活用することで、安全性やサービスの大幅改善に役立てられるという。

同社は今回、関節位置をノード(頂点)として、人体の構造に基づいて隣り合う関節を結んだエッジからなるグラフを採用し、グラフ畳み込みニューラルネットワークの新たなAIモデルを開発。あらかじめ関節の時系列データを用いて学習することで、隣り合う関節との接続強度(重み)が最適化され、行動の認識に有効な接続関係が獲得できる同モデルによって、開梱作業などの複雑な行動に対する高精度な認識を実現した。

今後、同モデルを「行動分析技術 Actlyzer」(商品:GREENAGES Citywide Surveillance)の基本動作100種類に追加することで複雑な行動を高精度に認識するモデルを短時間で構築可能にするとともに、21年度中の実用化を目指し、様々な業務の現場改善や安心安全な社会に向けた課題解決に貢献するという。上記技術の詳細はオンライン国際会議「ICPR2020」にて発表される。