MDPF利活用事例 Vol.6
高分子材料研究におけるデータ資源不足の壁を越える:PoLyInfoとRadonPyの統合的活用
吉田 亮
統計数理研究所 マテリアルズインフォマティクス研究推進センター長
国立研究開発法人物質・材料研究機構招聘研究員
プロフィール
※この利活用事例は、2025年2月14日に開催した第5回 技術開発・共用部門オープンセミナー ~MDPF利活用事例の紹介 [PoLyInfo]~(題目:高分子材料データベースPoLyInfoと外部データベースの統合解析 講師:吉田亮氏)を基に作成したものです。
ポイント
- 液晶性高分子の液晶相予測モデルで97%の高精度を実証した
- 相溶性予測において95%精度を実現し、実験工数を大幅削減できた
- PoLyInfoデータによるSim2Real転移学習で少量実験データから高精度予測を可能にできた
背景と目的
近年、マテリアルズインフォマティクス(MI)分野では、機械学習を活用した効率的な材料開発が注目されています。MIにおける最も重要な学術資源はデータですが、特に高分子材料研究においては、膨大な計算コストが壁となり、利用可能なデータ資源が限られていることが大きな課題となっています。データ駆動型高分子材料研究に資する体系的かつ包括的なオープンデータの創出は喫緊の課題ですが、このデータ不足を克服するためのアプローチとして、包括的な高分子材料データベースであるPoLyInfoと、高分子物性計算を全自動化するソフトウェアRadonPyを統合的に活用し、さらに計算機実験と機械学習の組み合わせ、転移学習により、データ資源不足の壁を乗り越えることが可能です。
本研究の概要
データ駆動型材料研究において基盤となるデータの存在は不可欠です。データの在り方としてオープン領域とクローズ領域に分けられますが、クローズ領域だけではAI駆動型研究に資するデータを獲得することは困難です。そのため、オープン領域において誰もがアクセスできる包括的かつ体系的なデータベースを構築することが重要となります。高分子材料研究における唯一の体系的包括的な文献データベースであるPoLyInfoのようなオープンなデータベースと計算機実験によって得られたデータを統合的に解析することでデータ資源の壁を乗り越え、新たな材料開発へと繋げることが必要になります。(図1)
高分子材料研究においては、計算コストや計算自動化の技術的課題から包括的な計算機実験データベースがないことが大きな課題でした。そのため、研究者グループはRadonPyという分子動力学法による高分子材料の計算機実験のワークフローを全自動化するツールの開発を推進してきました。将来的には高分子物性の未踏領域を表す地図を作るべく、国研、大学、企業からなる産学連携コンソーシアムにてRadonPyの共同開発が継続的に進められています。(図2)
現実世界における実験データはその量が限られており、それだけでは十分な機械学習モデルを構築することが困難です。そこで、Sim2Real転移学習が重要かつ必要となります。
Sim2Real転移学習を用いることで、RadonPyで大量に生成されたシミュレーションデータを活用し、事前に機械学習モデルを学習させることができます。その後、限られた実験データを用いてこのモデルを微調整することで、実験データだけでは困難だった高精度な予測が可能となり、効率的な材料開発を支援することができます。(図3)
PoLyInfoに収録されている液晶性高分子のデータを利用して機械学習による液晶化予測の事例を紹介します。ポリマーの繰り返し単位の化学構造を入力とし、そのポリマーが液晶相を示すかどうかを二値分類するモデルを構築しました。PoLyInfoのデータセットを用いて学習を行った結果、テストデータに対して97%という非常に高い予測精度が得られました。(図4)
PoLyInfoの2つ目の事例として、高分子と溶媒の相溶性、分子レベルで高分子とその有機溶媒が混ざり合うかどうかというタスクについてご紹介します。実験的に評価することが困難な膨大な組み合わせに対し、PoLyInfoのデータを用いて機械学習モデルを構築し、相溶性の指標となるFlory-Hugginsのχパラメータを予測しようというものです。χパラメータの実験値、PoLyInfoの良溶媒・貧溶媒データ、量子化学計算によるχパラメータの3つのデータセットを活用し、マルチタスク学習を適用しました。その結果、従来の経験モデルや単独の量子化学計算よりも高い予測精度を達成し、95%程の精度で予測が可能となりました。(図5)
データ駆動型材料研究では、データ資源の不足が大きな課題です。この解決には、基盤データの大規模構築と、それを活用するワークフローの構築が不可欠です。従来の実験手法ではデータ収集が限られるため、大量データ生成が可能な基盤領域を特定し、計算データと実験データを統合活用することが重要となります。機械学習、特に転移学習を活用することで基盤データを下流タスクにつなげていき、精度向上が実現できると思います。RadonPyやPoLyInfoなどのデータソースを組み合わせ、スケーラブルなワークフローを構築することで、データ資源の壁を克服するヒントにしていただきたいと思います。(図6)
参考論文
[1] Wu, S., Kondo, Y., Kakimoto, M., Yang, B., Yamada, H., Kuwajima, I., Lambard, G., Hongo, K., Xu, Y., Shiomi, J., Schick, C., Morikawa, J., Yoshida, R.
Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm. npj Computational Materials 5(1), 66 (2019).
[2] Yamada, H., Liu, C., Wu, S., Koyama, Y., Ju, S., Shiomi, J., Morikawa, J., Yoshida, R.
Predicting materials properties with little data using shotgun transfer learning. ACS Central Science 5(10), 1717-1730 (2019).
[3] Hayashi, Y., Shiomi, J., Morikawa, J., Yoshida, R.
RadonPy: automated physical property calculation using all-atom classical molecular dynamics simulations for polymer informatics. npj Computational Materials 8(1), 222 (2022).
[4] Minami, S., Hayashi, Y., Wu, S., Fukumizu, K., Sugisawa, H., Ishii, M., Kuwajima, I., Shiratori, K., Yoshida, R.
Scaling law of Sim2Real transfer learning in expanding computational materials databases for real-world predictions. npj Computational Materials 11, 146 (2025).
[5] Maeda, H., Wu, S., Marui, R., Yoshida, E., Hatakeyama-Sato, K., Nabae, Y., Nakagawa, S., Ryu, M., Ishige, R., Noguchi, Y., Hayashi, Y., Ishii, M., Kuwajima, I., Jiang, F., Vu, X.T., Ingebrandt, S., Tokita, M., Morikawa, J., Yoshida, R., Hayakawa, T.
Discovery of liquid crystalline polymers with high thermal conductivity using machine learning. npj Computational Materials 11, 205 (2025).
本事例で使われたDICEサービス

セミナーアーカイブ動画
第5回 技術開発・共用部門オープンセミナー動画
(講師:吉田 亮氏)
本件に関する問合わせ先
国立研究開発法人物質・材料研究機構
技術開発・共用部門 運営室
Email: mdpf-pr=ml.nims.go.jp ([ = ] を [ @ ] にしてください)