機械学習で感情解析を行うためのデータセットを無償公開

TISは、機械学習で感情解析を行うためのデータセット「chABSA-dataset」(チャブサ・データセット)を無償公開することを発表した。観点を指示した自然言語処理により、文章の要約作成や図表化を目指す。

TISでは、機械学習・自然言語処理を用いた業務の生産性向上について研究・開発を進めている。その取り組みの一つとして、機械学習・自然言語処理を用いて観点に沿って情報をまとめる「観点要約」に取り組んでいる。

観点要約とは、例えば議事録であれば決定事項やTodoといった特定の「観点」に沿い文書をまとめること。文章から情報を抽出・要約する際には、まとめられた文書が「どれだけ短いか」という点より「必要な情報が抜けていないか」という点が重視される。機械学習・自然言語処理によって、「指定されたポイントを押さえて情報をまとめる」ということを実現するには、観点要約が欠かせない技術になると同社は説明する。

今回公開したchABSA-datasetは、この観点要約の研究の一貫で作成されたもの。chABSA-datasetを利用することで、「何が」良い評価・悪い評価なのかを判断する機械学習モデルの開発が可能になる。

こうしたモデルは、将来的にはマーケティングデータに対し「商品のどういった点が評価され、どういった点が不満に思われているのか」などの分析に役立つ。また、各商品を同じ観点で評価できるため、商品間の評価の比較を行う際にも活用が期待できるという。

TISでは、同様の研究を行う研究者にも活用をしてもらい、その知見を交換することを目的にchABSA-datasetを無償公開することにした。

chABSA-datasetは、上場企業の有価証券報告書(2016年度)をベースに作成されたデータセット。各文に対してネガティブ、ポジティブの感情分類だけでなく、「何が」ネガティブ、ポジティブなのかという観点を表す情報が含まれている。こうした観点単位の感情分類を機械学習モデルに学習させることで、より高度な解析を支援する。

chABSA-datasetを利用した感情解析では、例えば、「商品Aの売り上げが上がった」という文について単にポジティブというだけでなく、「商品A」の「売り上げ」が「上がった」(=ポジティブ)であるということが判断できる。こうした解析結果を表形式でまとめることが可能になる。表では、緑の色が濃いほどポジティブ、灰色の色が濃いほどネガティブであることを示す。

TIS、機械学習で感情解析を行うためのデータセット「chABSA-dataset」を無償公開

カテゴリー: 情報通信 , ロボット/AI   

大島 純一郎

大島 純一郎Author

証券系システムエンジニアやIT系資格対策問題集の編集、IT系Webメディアの編集記者などの経歴を生かして、企業向けIT関連の記事制作に携わる。専門は、IT、金融、医療分野。医療情報システムの企画/構築、運用に関する知識を有する専門者としての資格、医療情報技師、情報セキュリティアドミニストレータの保有者。

Pickup

高性能IoTカメラをbp-Aメンバーズへプレゼント
bp-Aメンバーズ向けにサーコム・ジャパン提供IoTカメラ「RC8110J」をプレゼントを致します。  続きを読む

関連記事