日本国立研究开发法人理化学研究所生命功能科学研究中心生物计算研究团队的苏奭维(Su Shiwei)特别研究员、田中信行上级技师等人组成的研究团队,开发出了能够高精度预测聚合物表面会吸附多少蛋白质的AI模型“BB-EIT”。该模型将聚合物的厚度、表面电学性质等物理及生物化学特征量组合起来进行学习,同时兼具可针对广泛材料与蛋白质组合准确推导吸附倾向的通用性,有望应用于针对特定疾病优化的药物递送系统及高端诊断器件等领域。相关研究成果已发表在期刊《ACS Applied Materials & Interfaces》的4月6日刊上。
图1 AI模型BB-EIT的结构(供图:理化学研究所)
ChemBERTa将转换为SMILES字符串的单体化学结构式作为“上下文”加以理解,并输出(编码)为计算机可处理的形式(768维的化学特征向量)。将该化学特征向量与表示“膜(聚合物刷)的厚度”“表面亲疏水性”“表面电位”以及蛋白质的“表面电位”“分子量”这些物理及生物化学特征的5维向量进行结合。由此,将针对一个单体所得到的共计773维的特征向量输入机器学习模型(神经网络),输出预测值(蛋白质吸附量)。
在人工器官等生物材料的开发中,需要精密控制表面覆盖的聚合物材料上的蛋白质吸附,以满足“抗吸附”与“固定化”这对相互矛盾的需求。
此前,该领域的研究一直依靠研究者基于经验的海量试错来推进。近年来,利用AI的材料开发也在不断推进,但实验数据的获取需要耗费巨大的时间和成本,且此前运用机器学习的预测模型也仅被限定于特定的蛋白质或材料。
因此,本次研究团队旨在开发一种通过融合大规模语言模型与材料科学专业知识来弥补数据不足的方法。
生物材料中常用的聚合物是一类生态毒性低、易于加工且可大规模生产的高分子材料,由特定单体像链条一样大量连接而成。通过选择不同的单体,即可调控其化学与物理性质。
本研究采用了作为这种聚合物应用形态、相关研究正在推进之中的“聚合物刷”结构。大量聚合物被固定在固体表面并向上伸展,形成刷状结构,可对表面特性进行精密调控。
本次开发的AI模型能够高精度预测由特定单体构成的聚合物刷表面会吸附多少蛋白质。
“BB-EIT”模型的基础,采用了预先学习海量化学结构数据、能够将这些化学结构作为“上下文”理解的大规模语言模型“ChemBERTa”。
“BB-EIT”模型将聚合物厚度、表面电学性质等物理及生物化学特征量组合起来进行学习,并通过对结构式进行数学重组的数据增强法扩充数据量,从而利用少量实验数据也实现了高预测精度,能够针对广泛的材料与蛋白质组合准确推导吸附倾向。
在预测过程中,研究人员首先将高分子的最小单位——单体的结构以“SMILES字符串”形式输入ChemBERTa,并从中提取768维的化学特征向量。
在此基础上,将重要的物理及生物化学参数——聚合物刷材料的膜厚、表面亲疏水性、表面电位(表征材料表面处于何种电学状态的指标),以及蛋白质的表面电位、分子量——作为5维向量与上述化学特征向量直接结合。
模型学习中利用了前期研究收集的高质量实验数据。此外,为弥补数据量的不足,引入了“数据增强法”,通过添加高斯噪声来再现实验测量误差。针对测试数据的预测精度评估指标达到了0.88,创下了极高的预测精度记录。
AI是“科学的伙伴”
苏奭维特别研究员表示:“最新的AI已不再仅是文本生成工具,更是支撑开发提升医疗安全性的防污材料,以及捕捉疾病细微征兆的生物传感器的‘可靠科学伙伴’,AI已开始渗透到社会中。通过融合最新的AI与材料科学知识,我们在全球首次以单一框架成功实现了材料的蛋白质吸附量的准确预测,同时实现了适用于未知材料的高通用性。我们计划推动该模型的应用,使其成为大幅加速新一代生物材料开发的重要基础之一,同时致力于开发性能更优的升级版BB-EIT。”
原文:《科学新闻》
翻译:JST客观日本编辑部
【论文信息】
期刊:ACS Applied Materials & Interfaces
论文:BB-EIT: A Generalized Prediction Model for Protein Adsorption on Polymer Brushes Using Augmented Chemical Embeddings
DOI:10.1021/acsami.5c25223

