生成AI×AI OCRで非定型文書を電子化、業務DXを加速する

デジタルトランスフォーメーション(DX)が喫緊の課題である。企業がそれを進める際に必要となる"アナログ情報のデジタル化"では、各種紙資料の電子化とともに、機械学習型OCR(光学式文字読み取り装置)の需要が高まっていて――

日本語の請求書や領収書だけでなく、業務固有の特殊なレイアウトの帳票やPDF、写真などからテキストを抽出する作業もさまざまなビジネスシーンで求められているという。さくら情報システムは今月、生成AIとAI OCRを組合せた新たなデータ化サービス「AI TextSifta」の提供を開始した。

これまで読み取りが困難だったPDFや写真のデータ化も可能とする、生成AIの力で、OCRした結果だけでなく追加情報まで出力できる、同サービスは、従来のAI OCRで必要とされた事前学習モデルや設定作業を不要とする。次のような特長を備えていて、業務で使用するデータの抽出効率を飛躍的に向上させる。

①生成AIの自然言語処理能力を活用し、文書全体の文字認識の結果から情報を特定。データ化すべき項目名はプロンプトで指示され、生成AIは「請求金額合計」「合計金額」といった異なる項目名でも同じ意味をもつ値として抽出することが可能。②これまで国内では対応が難しかった英字の請求書や各種画像イメージなどの取扱いも可能。③生成AIの力で、単純なテキスト抽出の他、簡単な計算や文章の要約も可能。

④複雑な複数のフォーマットに対し一つのプロンプトで対応できない場合、事前にプロンプト(1)でグループ分けを行い、別のプロンプト(2-1、2-2)でグループに合った指示を行える――。ポスト処理については今年度後半リリース予定だという。新サービスは、お試しサイトが用意されている。Microsoft Authenticatorなどのスマホ版認証アプリで資格を得て、PCからセキュアに使ってみることができる。