多彩なデータの意味を理解するAI、表データ統合作業を効率化多彩なデータの意味を理解するAI、表データ統合作業を効率化

データ流通基盤の整備が進み、情報銀行が立ち上がった。日本では近年、部門や企業間、さらには業界間でデータを共有し統合することで、これまでにない横軸分析を行う取り組みが活発になっている。

保有者の異なるデータを横断的に分析するには、表名や列名が統一されていない多様なデータの結合が必要となる。作業者、企業、業界ごとの違いから表名/列名には実に大きな表記揺れが存在している。そのため従来、データ管理の専門家が膨大な量の表データを精査し、何のための表データか、その表データの各行や列が何を表しているかを見極める、人手による統合が行われていた。

その結果、データ統合に膨大な時間がかかり、分析がすぐに開始できないとか、担当者ごとのスキルにばらつきが出て分析精度が悪化するなどの問題が顕在化していたという。NECは今月5日、多種多様なデータの本質的な意味をAIで推定する「データ意味理解技術」を開発したことを発表した。分野や業種の異なる複数の表データの統合作業を、高速かつ高品質に自動化するものだという。

同技術は、表データの構造と数値特性を含む様々な単語のナレッジグラフ(DB)を活用した独自の機械学習技術であり、同社の最先端AI技術群「NEC the WISE」の1つ。例えば、表データにおける数値データ列に「29、24、23」がある場合、単独では「年齢」や「気温」など様々な意味が想起できるが、同じ表データに「氏名」の項目が含まれていれば、「気温」データではなく、より関係性の強い「年齢」データであると推定する。

オープンデータに適用したところ、専門家が30日かけていたデータ統合作業を、品質を同等にわずか1時間で完了することを確認したという。今回の技術をアメリカ人工知能学会に発表したNECは、情報銀行やデータ流通プラットフォームなど、情報共有基盤への汎用的な活用に向けて、これからも研究開発を進めていく構えだ。