MDPF利活用事例 Vol.1
高分子データベースPoLyInfoを活用したランキングベースの機械学習によるポリマー分解性予測
田村 亮氏(TAMURA, Ryo)
国立研究開発法人物質・材料研究機構
マテリアル基盤研究センター データ駆動型アルゴリズムチーム チームリーダー
プロフィール
※この利活用事例は、2024年7月11日に開催した第1回 技術開発・共用部門オープンセミナー ~MDPF利活用事例の紹介 [PoLyInfo]~(題目:ランキングベースの機械学習によるポリマー分解性予測、講師:田村 亮氏)を基に作成したものです。
ポイント
- 既存のポリマー分解性データセットは必ずしも十分ではなく、測定環境の違いもあり、直接比較が困難
- 分解性データを直接比較することができない3種類のデータセットを用意し、ランキングベースの機械学習手法でデータセットを統合し、分解性予測モデルを構築
- 構築したモデルをPoLyInfoデータに適用し、分解性が高いポリマーと低いポリマーを効果的に識別
背景と目的
NIMSが提供するDICEサービスのPoLyInfoでは既存の多くのポリマー実験情報が収録されています。これらのデータを機械学習で学習することで、例えばモノマーのSMILES情報のみからガラス転移温度を精度良く予測することができます。(図1)
一方で、近年、環境問題への関心の高まりから、ポリマーの分解性に関する研究が注目されています。しかしながらポリマーの分解性は環境や測定方法によって大きく異なり、統一された実験データベースは存在しておらず、PoLyInfoにも十分なデータは収録されていません。そこで、環境や測定方法が異なる複数のデータセットを機械学習を用いて統合することでポリマーの分解性を予測するモデルを構築することを目指しました。
本研究の概要
本研究では、異なる環境下で得られた3種類のデータセットを用いました。
(1) 文献データ:24種類のポリマーの分解性に関する文献データ(図2)
(2) 作製ポリマーフィルム:7種類のポリマーフィルムを人工海水中で暴露試験し、全有機体炭素(TOC)量でランキング化(図3)
(3) 購入ポリマー:8種類の市販ポリマーフィルムを人工海水中で暴露試験し、TOC量でランキング化(図4)
これらのデータセットは環境が異なるため、値そのものを利用して統合することはできません。そこで、プリファレンスラーニングという機械学習の手法を採用し、各データセット内のポリマー分解性の大小関係のみを学習することで、異なるデータセットを統合しました。(図5)
具体的には、RankSVMというアルゴリズムを用いて、各データセット内のポリマーの分解性のランキングを学習し、統合ランキングを作成することにしました。(図6)
統合ランキングを用いて、ポリマーのSMILES形式のデータから分解性を予測するモデルを構築しました。記述子としては、SMILESからMol2vecを用いて変換した特徴量を使用しました。構築したモデルを用いて、ポリマーの分解性を予測するスコアを算出し、このスコアに基づいてポリマーを分解しやすい順にランキングしました。(図7)
得られたランキングからポリマーの分解性に影響を与える因子を抽出するため、決定木を用いた解析を行いました。
その結果、エステル基が多いポリマーほど分解性が高い、ベンゼン環を持つポリマーは分解性が低い、アルキル炭素が多いポリマーは分解性が低いなどの傾向が見られました。(図8)
構築した予測モデルはSMILESがあれば、分解性の予測ができます。そこで多くの既存ポリマーのSMILESが収録されている、 NIMSが提供するDICEサービスのPoLyInfoに着目しました。PoLyInfoデータベースに収録されている約18,000個のポリマーSMILESデータに適用しました。
適用にあたり、Applicability Domainを考慮し、学習データに近い構造を持つ約4,500個のポリマーをスクリーニングしました。
その結果、アクリレートポリマーやアミド基を持つポリマーは分解しにくい、ヒドロキシ基を含むポリマーは分解しやすいといった傾向が見られました。(図9、図10)
今後の展開
本研究は、PoLyInfoを活用することで、ポリマー分解性に関する大規模な解析を可能にし、重要な分子特性を特定することに成功した事例です。本研究で構築した予測モデルは、新規ポリマーの分解性を予測する上で有用なツールであり、環境に配慮したポリマー材料の開発に貢献することが期待できます。また、予測結果を基にさらなる実験データを取得することで、モデルの精度向上も期待できます。
参考論文
Yuan, W., Hibi, Y., Tamura, R., Sumita, M., Nakamura, Y., Naito, M., & Tsuda, K. (2023).
"Revealing factors influencing polymer degradation with rank-based machine learning". Patterns, 4(12), 100846.
https://mdr.nims.go.jp/concern/publications/mk61rp94r?locale=en
本事例で使われたDICEサービス
https://polymer.nims.go.jp/
「PoLyInfoはポリマーの実験結果が収録された貴重なデータベースです。科学的に安心できるデータのみが収録されているため、そのままデータ駆動型研究を実施することができ、今後もPoLyInfoを利用した研究事例を報告していきたいと考えています。」(田村氏)
セミナーアーカイブ動画
第1回 技術開発・共用部門オープンセミナー動画
(講師:田村 亮氏)
本件に関する問合わせ先
国立研究開発法人物質・材料研究機構
技術開発・共用部門 材料データプラットフォーム(MDPF)運営室
Email: mdpf-pr=ml.nims.go.jp ([ = ] を [ @ ] にしてください)