視覚と聴覚、マルチモーダルAIでIoT機器をハンズフリー操作

音と映像で様々な情報を伝えるテレビは、近ごろ視聴者のボタン操作でちょっとした情報発信も可能となっていて、その走りとも考えられる。マルチモーダル――複数のコミュニケーション様式にてコンピュータシステムとつなぐ、相手が人工知能システムの場合、マルチモーダルAIという。

7月28日、ルネサスと、Always Onの音声UIで深層学習をエッジ化する米Syntiantは、ビジョンAIを活用したIoTおよびエッジアプリについて、低消費電力な音声認識を使って完全ハンズフリーで操作できる「マルチモーダルAIソリューション」を共同開発し、リファレンスデザインの提供を開始した。

ビジョンAI向けMPU「RZ/Vシリーズ」と、低消費電力で多様式・機能のNeural Decision Processor™「NDP120」を組み合わせ、常時オンで待機しながら音声トリガーで高速起動し、ビジョンAIによる物体・顔認識などを行える。例えば、任意の音声でシステムを起動/操作しつつ、操作する人のふるまいをAIで画像認識し、不審な動きがあれば操作を停止したり注意を促したりする。

音声と画像、双方のAIを組み合わせたマルチモーダルシステムの開発が可能となる。これにより、セルフレジ、顔認証セキュリティカメラ、TV会議システムやロボット掃除機などスマート家電のビジョンAIシステムを、非接触で安全な音声UIで楽に操作できるようになる。音声認識に低消費電力な専用チップを用いることにより、スタンバイ電力が抑えられるうえ、ビジョンAIと独立したソフトウェア開発ができ、システムの早期開発を実現する。

「マルチモーダルAIソリューション」は、ルネサスの「ウイニングコンビネーション」の一環として、同社の幅広いポートフォリオの中から相互に互換性のあるデバイスを組み合わせることにより、市場投入までの時間を短縮し、リスクを低減するという。