創薬向け機械学習ライブラリ×秘密計算にてAI予測モデルを構築

医薬品などの原料となる化合物の構造データは機密性が高い。ゆえに製薬および化学系の企業ならびに機関において、データの持ち出しや他者との共有は困難であり、複数企業やアカデミアと連携した新薬開発などでは、データ共有が課題になっていたという。

NECは、データを暗号化したまま計算処理ができる秘密計算技術を用いた複数組織間のデータ統合の有効性の検証を目的に、京都大学大学院医学研究科(小島 諒介講師、岩田 浩明特定准教授、奥野 恭史教授)との継続的な議論をふまえて、創薬における予測モデルの構築に関する実証実験を昨年10月から5ヶ月間実施。様々な化合物とそれらの毒性が記載されているデータセットを用いた毒性予測モデル等を評価した。

実証実験では、連合学習技術を基盤として改良を加えた機械学習ライブラリkMoL(github)に同社の秘密計算技術を適用――機密データである化合物情報および活性情報等を直接拠出せずにAIモデルの構築・統合が可能となり、情報の機密性を担保しつつ企業・組織間の連携ができる連合学習技術単独の場合に加えて、統合時のAIモデルの秘匿性を一層高めることを試みた。

秘密計算技術を用いて3ノードに分散してAIモデルの統合処理を行うことで、情報理論的安全性を確保できる。実証実験の結果、当該AIモデルは、連合学習技術のみで構築したAIモデルと比較して、同等の精度(ROC曲線を用いたAUC、正解率、適合率や再現率)を満たすことを確認し、秘密計算技術が毒性予測モデルの構築において、化合物構造データの秘匿性向上に寄与する実用的な手段であることを実証した。

学習データを同量とした際の処理時間の増加が12%程度で、想定ユースケースにおけるモデル統合の頻度ではボトルネックにならないことも実証した。今後、NECは製薬や化学企業等と連携して、幅広いデータ統合によって創薬・化合物開発の効率化を目指すという。