コンタクトセンターや対話ロボットに適した音声認識ソフトを刷新

NTTテクノクロス株式会社(以下、NTTテクノクロス)は、高精度音声認識ソフトウェア「SpeechRec」をバージョンアップして提供を開始した。新しい音声認識エンジンを採用することで音声認識率の向上を図るとともに、10言語の多言語化と高精度な言語識別を可能にして、多様な周囲雑音がある環境下での発話であっても精度良く検出する。

SpeechRecは、NTTメディアインテリジェンス研究所が開発した最先端の音声認識エンジン「VoiceRex」を搭載した高精度音声認識ソフトウェア。VoiceRexは、NTTグループが推進しているAI技術「corevo」を支える重要な技術の一つであり、世界最高レベルの音声認識精度を達成した「CNN-NIN(Convolutional Neural Network and Network In Network)」技術を採用している。CNN-NINは、新しいNeural Netrork(脳の神経系をモデル化した超並列的な分散情報処理システム)技術で従来に比べ精度の高い学習ができる点が特徴。

今回のSpeechRecのバージョンアップでは、新しいVoiceRexを採用することで音声認識率の向上を図っている。また、10言語の多言語化と高精度な言語識別が可能で、多様な周囲雑音がある環境下での発話であっても精度よく検出できるようになったという。

SpeechRecはサーバ/クライアント型の構成を取っており、利用者はクライアントアプリ開発用のSDK(ソフトウェア開発キット)を用いてアプリを開発することが可能。

画像認識や音声認識等の分野で利用されている、機械学習の一種であるNeural Networkの階層を深くしたアルゴリズム「DNN(Deep Neural Network)」を採用している。また、DNN技術をベースとした音声区間検出雑音抑圧エンジンを搭載し、車内や駅などの周囲雑音が大きい環境においても従来型よりも平均で約2%の認識率の向上が確認できたという。

NTTテクノクロスでは、自動的に言語を識別する機能を採用し、平均5秒程度の発話から99.5%の精度で言語識別が可能な世界最高レベルの性能を達成したと説明する。コンタクトセンター、スマートフォンやタブレット端末、対話ロボット、サイネージなどでの利用用途を想定している。