多様な非画像データを画像に変換してディープラーニングで洞察する

全遺伝情報および遺伝子発現などのゲノミクスデータは、病気などの個人差の解析・診断に役立つと考えられているものの、数万から数千万の変数を持つ超高次元データであることが多く、伝統的な統計学での解析が難しい。

そのため、近ごろ画像解析が得意なAI技術の一つ「深層学習」が注目されている。が、ゲノミクスなどの多くのデータは非画像データであり、深層学習の能力を生かすには画像データにする必要がある。ゲノミクスデータを用いる医療診断や予測では、クラス同定や分類を高精度にするために、「適切な変数(画素)の配置」、「特徴抽出」、「適切な分類モデルの構築」を順次行っていたという。

理研IMS 医科学数理研究チームらの国際共同研究グループは、非画像データを画像データに変換する3ステップを統合した「ディープインサイト法」を開発した。これにより、非画像データの背後にある複雑な特徴や構造を抽出できるようになる。医療での診断や医学・生命科学など幅広い応用が期待されるという。

畳み込みニューラルネットワーク(CNN)を活用した。新手法では、変数を画素として適切に再配置し、イメージへ変換することで、非画像データの解析に対しても深層学習が可能になった。がん遺伝子発現などの実データに適用した結果、既存のランダムフォレスト法などの機械学習よりもはるかに高精度で分類できることがわかった。方法論には普遍性がある。多様な非画像データを深層学習で扱えるという。

JST・CREST【ビッグデータ応用】における研究課題「医学・医療における臨床・全ゲノム・オミックスのビッグデータの解析に基づく疾患の原因探索・亜病態分類とリスク予測」、文科省新学術領域研究の「次世代ヒト全ゲノム・オミクスの解析方法論の開発と応用」東京医科歯科大学難治疾患共同研究拠点の支援を受けて行われた。研究の成果は、英国サイエンティフィックリポーツ誌に掲載された。