高精度音声認識AIとリアルタイム字幕化技術で、聴覚障害者の業務をサポート

厚生労働省の調査によると、全国の聴覚障害者の総数は約34万人にのぼる。多くの聴覚障害者が社会で活躍しているが、「聴覚障害」は「情報障害」とも呼ばれ、会議や講演において必要十分な情報を得ることができず、情報保障の拡充が求められている。

こうした中、東芝は、リアルタイムで会議や講演などにおける発話を高精度にテキスト化し、読みやすい字幕を表示する技術を開発したと発表した。同技術は、発話者の音声を高精度に認識し、「ええと」「あの」など発話の合間に挟み込むフィラーや、「きょ、今日は」などの言いよどみを瞬時に検出。表示を工夫することで、視聴者が読みやすいリアルタイム字幕を自動的に表示する。聴覚障害者に、音声を文字にして情報を提供する情報保障の拡充を支援できると同社は説明する。

一般的な音声認識では、「あ、い、う」のような音韻を識別する音響モデルと、「今日は」の次に来る単語の確率が「雨0.25、晴れ0.25、曇り0.25、良い0.25」などといった単語の連鎖をモデル化した言語モデルの二つのモデルを使用する。

今回開発した音声認識AIでは、音響モデルとして、長期の依存関係を学習可能とする「LSTM(Long Short-term Memory)と、空文字の導入と損失関数に工夫により、入出力で系列長が異なる問題に対してRNNを導入するための手法である「CTC(Connectionist Temporal Classification)学習」を用いる。これにより、人間のフィラーや言いよどみ発声時の音響的特徴を学習することを可能にした。

音声認識時には、学習された音響的特徴に基づいて、フィラーや言いよどみを検出可能。検出したフィラーや言いよどみはリアルタイム字幕表示の際に薄く表示することで視聴者の読みやすさを向上させ、ドキュメントとして残す際には消去することで簡潔な形で仕上げることができると説明する。

2015年から社内の聴覚障害者を対象にした実証実験では、「発言がリアルタイムで把握できるため情報量が格段に増えた」「十分に効果がある。早く実用化してほしい」など高い評価を得たという。2017年から情報処理学会と共同で行った学会講演の字幕提供の実証実験においては、音声認識率が発言内容を把握できるレベルの85%に達し、アンケートでも良好な結果が出ている。

また、この技術を搭載した音声自動字幕システムを5つのメインセッションがある実際の講演で実証実験を行ったところ、編集や事前学習なしで、発言内容が把握できるレベルである85%の平均音声認識率という結果になった。さらに、アンケートでは、字幕システムが「できる限り必要」と回答した約40%の方を含め、全体の約90%の方が「あっても良い」と回答するなど良好な結果が出た。

2023年頃から加速すると言われている日本国内の労働力不足に対して、AI技術による業務代行と自動化が推進されている。その中でも音声認識AIは多くの音声書き起こし作業の代替手段として期待が高まっている。

現在、会議や講演の字幕表示や、記録としての書き起こしには多くの労力がかかっており、これらを音声認識AIで解決することで、聴覚障害者が会議や講演に参加することを可能にするとともに、作業量低減による生産性向上を実現できると見込まれている。