OCR×ディープラーニング、手書き文字の認識精度を大幅アップ

活字や定型の手書き英数字などを読み取る。光学文字認識(OCR)は、デジタル駆動型の社会とビジネスが志向されるなかで、多様な書類のデータ化への対応が求められている。認識精度の向上、他のIT(情報技術)との組み合わせによる業務効率化への貢献が期待されている。

そこで、AI(人工知能)技術を含む50年以上のOCR関連技術の開発成果と業務適用ノウハウを持ち、ハードウェア型/ソフトウェア型OCRを長年提供――昨年1月には、読み取る範囲のマウス指定や読み取る項目のキーワード登録など、容易に、活字・手書き文字の読み取りとデータ化ができるクラウド型OCR「文字認識サービス」を商用化し、RPA(ソフトウェアロボット)連携サービスも実現しているという。

東芝デジタルソリューションズは、上記「文字認識サービス」の新バージョンとして、申請書や届出書などに記載された手書き文字列の認識精度を飛躍的に向上させた「AI OCR文字認識サービス V2.0」の提供を1月30日に開始。V2.0では、ディープラーニング技術を活用した文字認識エンジンの搭載により、乱雑に書かれた手書き文字やつづけ字も、さらに高精度に認識できる。

今回、同社が蓄積したOCR技術と業務適用ノウハウに、同社が得意とするディープラーニング(深層学習)技術を組み合わせることで、手書き文字列の読み取り精度を大幅アップした。文字認識エンジンにより、乱雑に書かれた「接触文字」や「枠線にかかった文字」、文字ごとの境目がない「つづけ字」なども、高い精度で認識する。V2.0では誤認識率が半減した。

帳票を自動で識別し仕分ける機能も強化し、利便性を高めたという。同社は、多彩な帳票・紙文書を一層高精度かつ効率的に読み取れるよう、ディープラーニングの適用範囲の拡大や設定のさらなる簡素化などを進め、さまざまな業務・業態での働き方改革にも貢献していく構えだ。