大規模データの匿名加工処理を高速化する技術を開発
近年、情報化社会の進展に伴い、地方自治体や公共機関、医療機関、民間企業などが保有する様々なデータを有効活用した施策の立案や、新たなサービスの創出が求められている。個人の特定が危惧されるパーソナルデータの活用においても、個人情報保護法の改正により、事業者間でデータを流通させる場合は個人を識別できないように加工した匿名加工情報とすることが規定されるなど、活用のための環境整備が進んでいる。
データの匿名加工処理においては、例えば同じ属性を持つデータが一定数以上存在するようにデータを変換し、個人が特定される確率を低減するといった措置を行う。しかし、このような匿名加工処理の過程では情報が失われる可能性があり、有用な情報量を確保するためには、データの抽出範囲や加工単位などを細かく調整しながら、データの検証を繰り返す必要がある。データの規模や種類が増えるほど、匿名加工処理に費やす時間が膨大になるという課題があった。
東大生研と日立は、大規模データの匿名加工処理にかかる時間を大幅に短縮し、対話的に細かな調整を行いながらデータの抽出・加工・検証を行うことを実現する技術を開発した。
まず東大生研と日立は、大規模データの解析問合せにおいて高速性を発揮してきた非順序型実行原理を、新たに匿名加工処理に適用した。これまで匿名加工処理には専用ソフトウェアを用いるのが一般的であり、データベースから対象となるデータを抽出した後、当該専用ソフトウェアを用いて匿名加工処理を行っていた。そのため、大規模データに対して匿名加工処理を実施するには困難が伴っていた。
今回、匿名加工処理の手続きをデータベース上の演算として定義し、匿名加工処理を非順序型実行原理に基づくデータベースエンジン上で直接実行することを可能とすることで、大規模データの匿名加工処理の高速化を実現した。
これらの研究開発により、ユーザーはデータベースからの匿名加工処理を施されたデータの抽出から抽出したデータの安全性や有用性の検証までを短時間に行えるようになり、必要に応じて匿名加工処理や検証の再実行を繰り返し行うという対話的な処理を可能とした。
東大生研は、ベンチマーク用データセットを用いた実験を行い、従来の非順序型実行原理を採用しないデータベースエンジンと今回開発した技術を適用したデータベースエンジンのそれぞれにおいて、データの匿名加工処理と有用性・安全性検証にかかる時間を計測。この結果、従来の非順序型実行原理を採用しないデータベースエンジンに対して、今回開発した技術により匿名加工処理および有用性・安全性検証を大幅に短縮し、100倍程度に高速化することが可能であることを確認した。
今回開発した大規模データの匿名加工処理を高速化する技術は、これまで利活用が困難であったパーソナルデータを含む大規模データに対して、有用性を維持しつつ安全に利活用するための新技術だという。ヘルスケアや都市計画、購買履歴分析などへの適用が期待されており、日立はさらなる大規模データの利活用の拡大に向けて、2019年度中にデータベースソフトウェア製品である「Hitachi Advanced Data Binder」にこの技術を組み込み、実用化することを計画している。