コンタクトセンターや対話ロボットに適した音声認識ソフトを刷新

NTTテクノクロス株式会社(以下、NTTテクノクロス)は、高精度音声認識ソフトウェア「SpeechRec」をバージョンアップして提供を開始した。新しい音声認識エンジンを採用することで音声認識率の向上を図るとともに、10言語の多言語化と高精度な言語識別を可能にして、多様な周囲雑音がある環境下での発話であっても精度良く検出する。

SpeechRecは、NTTメディアインテリジェンス研究所が開発した最先端の音声認識エンジン「VoiceRex」を搭載した高精度音声認識ソフトウェア。VoiceRexは、NTTグループが推進しているAI技術「corevo」を支える重要な技術の一つであり、世界最高レベルの音声認識精度を達成した「CNN-NIN(Convolutional Neural Network and Network In Network)」技術を採用している。CNN-NINは、新しいNeural Netrork(脳の神経系をモデル化した超並列的な分散情報処理システム)技術で従来に比べ精度の高い学習ができる点が特徴。

今回のSpeechRecのバージョンアップでは、新しいVoiceRexを採用することで音声認識率の向上を図っている。また、10言語の多言語化と高精度な言語識別が可能で、多様な周囲雑音がある環境下での発話であっても精度よく検出できるようになったという。

SpeechRecはサーバ/クライアント型の構成を取っており、利用者はクライアントアプリ開発用のSDK(ソフトウェア開発キット)を用いてアプリを開発することが可能。

画像認識や音声認識等の分野で利用されている、機械学習の一種であるNeural Networkの階層を深くしたアルゴリズム「DNN(Deep Neural Network)」を採用している。また、DNN技術をベースとした音声区間検出雑音抑圧エンジンを搭載し、車内や駅などの周囲雑音が大きい環境においても従来型よりも平均で約2%の認識率の向上が確認できたという。

NTTテクノクロスでは、自動的に言語を識別する機能を採用し、平均5秒程度の発話から99.5%の精度で言語識別が可能な世界最高レベルの性能を達成したと説明する。コンタクトセンター、スマートフォンやタブレット端末、対話ロボット、サイネージなどでの利用用途を想定している。

SpeechRecに世界最高レベルの音声認識技術を搭載

カテゴリー: 情報通信 , ロボット/AI   

大島 純一郎

大島 純一郎Author

証券系システムエンジニアやIT系資格対策問題集の編集、IT系Webメディアの編集記者などの経歴を生かして、企業向けIT関連の記事制作に携わる。専門は、IT、金融、医療分野。医療情報システムの企画/構築、運用に関する知識を有する専門者としての資格、医療情報技師、情報セキュリティアドミニストレータの保有者。

Pickup

高級クロコダイルレザー仕様製品を抽選で各3名様へプレゼント
高級クロコダイルレザー仕様のbp-Aオリジナルキーホルダーとシューホーンを抽選で各3名様へプレゼントいたします。  続きを読む

関連記事