IoT(モノのインターネット)の展開およびデータ駆動型のしくみづくりが加速している。近ごろ工場やプラントなど、製造現場では製造物の品質値や加工条件、設備の温度や圧力などの製造プロセスや設備稼働に関するデータが日々大量に収集・蓄積されている。
それらのデータを活用し品質のばらつきを説明する回帰モデルを構築できれば、品質や歩留の悪化要因の特定と改善に大きく寄与するだろう。けれど実際に収集されるデータには、測定ミスや通信エラーによる欠損が発生する。さらに抜き取り検査によって品質を確認することが多いため、1割程度のデータしか収集できず、予め欠損値を計算・補完してから解析する。
欠損値が多いと膨大な計算を必要とし、要因解析の高速・高精度化が困難であったという。東芝と、統計数理研究所は、収集した製造データに多くの欠損値が含まれている場合でも、品質低下や歩留悪化などの要因を高速・高精度に特定する機械学習アルゴリズム「HMLasso」を開発し、最先端のアルゴリズムCoCoLassoと比べ推定誤差を約41%削減することに成功した。
HMLassoは、欠損率の高低に応じて柔軟に計算する設計のため、「欠損率が高い場合でも高精度に回帰モデルを構築」、欠損値を含むデータから直接モデル構築でき全体の計算時間を短縮する「欠損値の補完プロセスを省略」、変数選択とモデル化を同時におこなうスパースモデリング技術の応用により、多くのデータ項目から品質や歩留への影響度の高い「重要項目の自動絞り込み」といった特徴を備えている。
これまで活用の難しかった欠損値を多く含むデータでも高速・高精度な要因解析が可能となり、工場・プラントなど製造現場の生産性・歩留・信頼性の向上が期待できるという。両者は、新技術の詳細をマカオにて開催の国際会議「IJCAI-19」で発表し、その簡易プログラムをOSSとして今月2日よりCRANで公開する。