很多疾病的治疗药物都是靶向蛋白质的,但很多时候会因为不清楚蛋白质的三维构造而导致新药研究受阻。九州大学生体防御医学研究所的中山敬一主任教授、哈佛医学院系统生物学部门的清水秀幸研究员以及北海道大学人兽共通感染症国际共同研究所的泽洋文教授组成的研究团队,开发出了LIGHTHOUSE(Lead Identification with GrapH-ensemble network for arbitrary Targets by Harnessing Only Underlying primary SEquence)人工智能系统,能够通过氨基酸序列,而不是利用致病蛋白质的三维结构探索治疗药物。研究团队利用该系统发现了抑制参与癌症恶化的酶——PPAT蛋白化合物,此外还从现有药物中发现了有望治疗新冠病毒的药物。相关成果已在bioRxiv上公开。
很多药物都是通过与蛋白质结合抑制或激活其功能来发挥作用的。人体内大约有2万种蛋白质,虽然氨基酸序列(一维结构)已经明确,但三维结构有很多都是未知的。地球上的低分子化合物的数量据说有1060个。
在以往的新药开发中,制药企业需要花费大量的时间、精力和成本逐一通过实验确认约100万~1000万个低分子化合物是否与靶蛋白结合。在这一过程中,已经清楚三维结构的蛋白质可以利用分子动力学计算等模拟实验来确认结合的可能性,但更多的蛋白质尚不清楚三维结构,所以会耗费大量的时间用于计算。
研究团队认为作为一维信息的氨基酸序列与低分子化合物的结构信息之间可能存在某种关系,于是尝试开发了前述人工智能系统。
用于人工智能学习的,是通过大规模国际项目获得的STITCH数据(150万种化合物与蛋白质的配对数据)。为方便进行机器学习,将蛋白质和化合物分别转换成了数值向量(考虑到结合模式,将化合物表示为图形后通过MPNN转换为数值向量)。蛋白质利用三种不同特征的方法(CNN、AAC、Transformer)将氨基酸序列转换为数值向量。通过将化合物与蛋白质的数值向量加在一起并进行一系列的运算,最终得到了表示化合物“与药物有多相似”的数值。另外,还利用录入了蛋白质与低分子化合物的结合力的BindingDB数据库(约100万),以同样的方法让人工智能学习了“有效性”。
新开发的人工智能系统LIGHTHOUSE即使没有结构信息,也能以与三维模拟基本相同的准确性在一分钟内预测约6000种化合物与靶蛋白的结合。普通的三维模拟需要利用结构信息,而且一分钟只能确认2~3种化合物,因此LIGHTHOUSE的速度要快1万倍以上。
研究团队利用该系统探索了抑制参与癌症恶化的酶——PPAT蛋白的化合物。已知敲低PPAT可以抑制各种癌症的进展,但一直不清楚PPAT的三维结构,也没有抑制剂。因此,研究团队利用LIGHTHOUSE探索了ZINC数据库(收集了全球试剂制造商使用的市售化合物)中的近10亿种化合物,并调查发现的最有希望的化合物,由此全球首次成功地发现了具有PPAT抑制活性的化合物。
另外,研究团队还利用该系统预测了有望治疗新冠病毒的化合物,结果发现了在日本已作为青光眼治疗药物和利尿剂等通过审批的化合物乙氧唑胺。在利用人体培养细胞实施的感染实验中确认,乙氧唑胺可以抑制新冠病毒感染,不仅是原始的新冠病毒,还能保护细胞免受包括德尔塔毒株在内的各种变异病毒感染。在它被实际作为治疗药物使用以前,需要对其结构稍作修改,还可以进一步提高药效。
中山教授表示:“如果目标蛋白是已知的,即使不清楚三维结构,也可以应用于任何疾病。它可以作为新药研究的新方法论使用。我们已经申请了专利,今后将考虑与企业开展联合研究”。
原文:《科学新闻》
翻译编辑:JST客观日本编辑部