音声を深層学習、たった5秒で個人の認識が可能に

業務もしくは私的に会員登録するサービスやWebサイトが増えている。昨今、個人の身体的・行動的特徴を用いて行う生体認証は、ID+パスワード認証に比べると、忘れる心配がなく、ユーザの負担も軽いことから、指紋・顔認証を中心に幅広い場面で普及が進んでいる。

特に声認証は、話すという簡便な動作で認証できるため、新たな手段として注目されている。定型句を認証に用いる「テキスト依存方式」はすでにスマートスピーカー等、限定的な利用シーンで実用化されている。他方、非定型の自然な発話データによる「テキスト独立方式」は、応用・活用の幅が広く期待されているものの、認証に10秒以上の発声を要するなど、技術的制約があったという。

NECは、それを5秒にし、かつ認識精度を90%から95%(米国NISTにおける第三者評価で認定)に向上させた。今回、深層学習を用いた新手法を開発、同時に学習用音声データの話者数を5倍に拡張することで、自然会話による認証時間を半減させた。さらに、背景雑音や劣悪な通信環境下での通話、複数の声が混在するなど人の耳でも聞き分け困難な環境でも高精度な個人認識を可能とした。

特定のフレーズに限らない短い発声からでも個人の特徴を正確に抽出・識別することができるため、音声を利用した簡便なユーザインタフェースでの高いセキュリティを実現する。今回の技術について、本人確認手続きの効率化をめざすコールセンターなど顧客応対業務、他の生体認証等との連携によるEコマースやテレホン/ネットバンキングでの決済手続きの利便性向上、音声鑑定のような犯罪捜査支援などへの応用を想定する。

同社は「Bio-IDiom」を中心としたセーフティ事業をグローバルでの成長エンジンに位置づけ、「NEC Safer Cities」のもとに同事業を強化しているという。今後も、セーフティ事業を中心に社会ソリューション事業の拡大を目指す構えだ。