音声認識エンジン「AmiVoice」のエラー改善率が最大20%向上

アドバンスト・メディアは、ディープラーニングの発展技術であるリカレントニューラルネットワークの「LSTM(Long Short-Term Memory)」を音声認識エンジン「AmiVoice」に実装した。

LSTMは、リカレントニューラルネットワーク技術の一つで、これまで短期でしか利用できなかった情報を長期に渡って活用できるという特徴を持っている。これを音声認識エンジンに実装することで、認識率を向上させることが可能となった。

今回、AmiVoiceの音響モデル、発話区間検出にLSTM技術を実装。過去の情報を加味しながら処理を行うことで、話し言葉を中心とした自然発話の認識率が向上し、従来型のDNN技術と比較してエラー改善率最大20%を記録した。

加えて、精度への影響を抑えつつフレームレート(認識処理の単位)を小さくする手法を導入することで、従来のLSTM技術で課題となっていた処理速度の問題を解決。高い認識速度を保ちながら、精度向上が図られた。発話区間検出にもLSTM技術を実装したため、発話の区間判断の精度と耐雑音性能が向上した。

アドバンスト・メディアでは、まずは自然発話が中心となる議事録やコールセンター分野から導入をスタートし、順次各サービスに実装する予定。また、今後も継続的に技術開発を進め、ユーザーの業務の効率化・価値創造に貢献するソリューションやサービスの提供に努めるという。