米国を中心に大規模言語モデル(LLM)の開発が活発である。いま、経済社会や安全保障などあらゆる場面で大きな変革が起きている。他の国々もLLM開発のために莫大なリソースを投入している。日本でも、AI研究のための計算資源として――
本邦スーパーコンピュータのフラッグシップシステムに寄せられる期待は大きく、大規模な分散並列計算を実施するための環境整備が求められていたという。東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologiesが参画した研究チームは10日、理研のスパコン「富岳」を用いて学習した日本語能力に優れたモデル「Fugaku-LLM」をGitHubとHugging Faceに公開した。
深層学習フレームワークを移植してTransformer(ニューラルネットワーク)の性能を最適化。並列分散学習手法を開発・適用することで、LLMの学習時の演算速度を6倍にした。TofuインターコネクトD上での集団通信を最適化し、通信を3倍速とすることにも成功した。これにより、「富岳」のCPUを用いて、現実的な時間内でLLMを学習することが可能になった。
高性能かつ現在の計算機環境下で扱いやすい130億パラメータのモデルであり、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンモデル中、Japanese MT-Benchで最高性能を達成し、人文社会系のタスクで高いベンチマーク性能を発揮する。
AI基盤モデルを科学研究に活用する「AI for Science」など、次世代の革新的な研究やビジネスの成果につながることが期待される。ライセンス条件下で誰もが研究・商業目的で利用できる。Fugaku-LLMは、先端技術を無償で試せる「Fujitsu Research Portal」でも提供開始された。