客观日本

蛋白质的结构预测方法的开发

2012年05月01日 科技交流

前言

搞清楚蛋白质立体结构是解开蛋白质功能的重要手段。现在,开展了对各种各样的物种的解码工作,碱基序列,氨基酸序列的数据迅速增长。然后,由于通过实验手段确定蛋白质结构,需要花费大量的时间和金钱,蛋白质结构数据的增长并不是很高。因此我们说,蛋白质结构预测的作用,就显得越来越重要。在本文中,我们研究组就蛋白质结构预测,高精度建模,折叠模拟,蛋白质-蛋白质复合体等方面进行论述。另外,结合日本目前对这些问题的研究趋势进行介绍。

蛋白质的结构预测

蛋白质结构预测方法分为比较建模法和从头预测法。比较建模法(同源建模法),是通过已知的蛋白质中选择模板结构,来预测未知蛋白质结构的方法。该方法并不需要很长的计算时间,只要找到好的模板,就可以准确地预测,它是现在最为成熟的预测方法。从头预测法,该方法无需使用特定的模板,是通过最小化能量函数来构造模型结构的方法。

我们,至此开发出了从头预测法系统ABLE。以下是该方法的概要。首先,将想要预测的蛋白质的氨基酸序列切断为长5-9残基的部分序列,将此得到的局部结构,探索嵌入构造数据库,从而得到全部结构。其次,以统计潜力来评估建筑的结构,将低潜力结构作为候选预测结构(统计潜力,是基于数据库中存储的结构信息设计出的人工潜力)。最后,对候选结构进行集群,将代表性结构作为预测结构。

现在,对于100个残基左右相对较小的蛋白质,在某些情况下,可以得到与晶体结构的RMSD值为仅几Å数值精度的高预测结构。但是,较使用模型的比较建模法精度低,100残基以下的蛋白质有时会导致不同拓扑结构的预测结果。另外,对于超过200残基的蛋白质基本上无法进行预测。然而,从头预测法不依已知的结构,其特点为可以预测新的折叠。比较建模法应用实例中,无法得到氨基酸序列全长模板的例子比较多,这种情况下从头预测法则行之有效。比如,在图1中,以(1)的晶体结构(PDB ID:1VM0)为预测目标时,比较建模工具Modeller,无法得到的C末端26残基部分的结构与晶体结构有很大的不同,得到如(2)那样的结构。与之相对,在C末端部分使用ABLE的话,就能够得到如(3)所示的全体精度较高的模型结构。

高精度的建模――模型结构的精密化

我们使用寺田等人开发出的multicanonical分子动力学方法(MD)[2],进行进一步的研究,致力于精密化比较建模法得到的模型结构。

作为具体的问题,以FNIII10 (PDB ID:1FNA)和Xlp SAP (PDB ID:1D4W)为目标,试着精密化将通过Modeller得到的预测结构。FNIII10,通过Modeller得到的预测结构和天然结构的RMSD为3.0 ,对应用multicanonical MD结构进行采样而生成的结构其预测精度提高了68%,能够得到与天然结构的RMSD为0.7Å的结构(图2)

另外,在决定大部分三维结构的SH2领域内,特别是human p56 lck (PDB ID:1LKK)结构的基础上,预测了同样是SH2领域的Xlp SAP (PDB ID:1D4W)结构。SH2领域具有识别从100个氨基酸残基形成的含有磷酸肽的缩氨酸的功能,识别缩氨酸的环肽部分在同源间有显著不同。特别是Xlp SAP,与human p56 lck比较,缩氨酸识别环上有10残基物插入序列,仅用已知的比较建模法是很难进行结构预测的。我们以比较建模工具Modeller得到的模型结构为初期结构,应用multicanonical MD以得到高效的结构模板,并试着进行精密化。其结果显示,能够得到与晶体结构(PDB ID:1D4W)类似的结构群。另外,以晶体结构为初期结构,使用multicanonical MD,进行了以模型结构为初期结构与应用MD法的比较,结果发现,各模拟所得到的最大结构的集群是一致的。因此,我们的精密化的方法,揭示了它在比较建模中改善低信赖性部分的精度上是有效的。

 蛋白质的折叠模拟

 

蛋白质的折叠模拟是指,在计算机上再现构筑蛋白质结构的过程,以阐述其原理为目的。蛋白质的结构从一开始预测,可以说是最终的预测结构。

我们作为研究对象蛋白质的一种是chignolin。Chignolin是在Protein G的B1领域的42-52残基基础上人工设计,合成的由10氨基酸构成的多肽链,在水溶液中维持着稳定的β- hairpin结构,被看作是最小的蛋白质。我们将完全伸展的结构作为初期结构进行multicanonical MD,并成功找到从伸展结构到折叠结构。 特别是,CαRMSD为0.19Å,能够发现含有芳香环配位的NOE距离拘束条件数实现了99%再现构造。从继续进行的折叠自由能分析中,我们能够识别作为折叠驱动力的重要的相互作用。此外,我们在很多方面改变chignolin的序列,与三维结构相关的各残基的作用变得明显的同时,也进行了NMR实验,验证了由MD得到的结果[4]。

MD折叠再现,存在着采样问题,潜力能量函数的精度问题,需要膨大的搜索空间结构进行长时间的模拟问题。为了解决这些问题,我们开发了约束具有二级结构主链骨格双面角的新MD方法。适用于staphylococcal protein A的B领域及其突变体(46残基)以及FSD-EY(28残基),通过比较实验结果,揭示了能够准确的预测自然的三维结构是所形成的自然的二级结构构象空间中最小的自由能量结构。另外,还从原子层面上详细地分析了这些分子的折叠过程[5]。图3,显示了进行staphylococcal protein A的B领域的折叠模拟时的情况。围在四角的结构是最大集群(存在比例7.0%)的代表结构,和晶体结构CaRMSD值是1.65Å

蛋白质复合体的结构预测

 

蛋白质复合物结构预测,就是船坞蛋白质的单体结构,造模复合物蛋白质。到目前为止,复合物结构预测的方法有以下三种。(1)调整匹配相互作用面形状,(2)利用能量最小化计算求得蛋白质间相互作用最低能量结构的方法(3)提出了蛋白质间相互作用最低能量结构网络搜索方法,尤其是(3)的方法是效率精确度比较高,与其他方法结合使用时,被作为基本方法频繁使用。作为网络搜索方法,快速傅立叶变换(FFT)已被普遍使用,FTDock、ZDOCK等,已使用在实际系统中。然而,为了能够实现考虑到结合时结构变化的高精度预测,快速生成大量的候补预测结构是非常重要的,传统的方法不能充分支持该功能。

因此,作为替代FFT方法,我们开发出了以球谐基函数和新设计出的使用了基于标准正交基函数级数膨胀的高速内积算法的快速算法。该算法中,将表示蛋白质相互作用的计分函数,从各分子定义来的标量场函数f,g的内积线性总和以

表示,并求得最小变换函数T。计算每个构象(单体结构组合形式)中该计分函数的值,从低值开始排列,将顶端作为候补构象。每个标量场的内积,能够灵活的定义为反映想要表达的能量或者性质,例如,可以表现分子形状的互补性和各种对势,静电相互作用等。另外,本方法,将标量场按照上述标准正交基函数膨胀,计数函数的计算有必要执行快速操作的同时,高级结构空间搜索所需的坐标变换操作也可以快速执行。

另外,因膨胀系数标量场的表达能力,随着距离中心的r的增加逐渐恶化,基于球谐基函数解决了使用基函数方式的问题点,尤其是逐层定义分子的表达空间,开发出了在各层使用的不同的径向基函数。因此,可以以相对较少的系数有效地表达标量场,能够改善我们调查过的70%蛋白质的预测精度。与FTDock比较,预测到同等程度的精度的话,可以达到从16倍到160倍的高速化预测。图4展示了复合物结构预测的实际执行结果。(1)是目标复合物结构(PDBID:1UGH)、(2)是预测结构。该预测结构是第一位I晶体结构,与晶体结构的I-RMSD值(形成接口的残基(属于其他分子的原子10Å以内的带有一个原子的残基)的Ca原子的RMSD值)为2.70Å。

 日本的研究趋势

 

就蛋白质的结构预测而言,在比较建模法的研究中获得优异成果的系统是北里大学的梅山,竹田志摩等的FAMS。在蛋白质结构预测比赛(Critical Assessment of Techniques for Protein Structure Prediction, CASP)上经常获得最好的成绩。作为比较建模法的核心,独自开发出了构建模型结构的项目,在目标和模板上也是组合使用多种方法,实现了自动化预测[7]。另外,产业综合技术研究所生物信息工程学研究中心的富井等,在比较建模法的目标和模板的序列比对方面,以改善结构类似性的灵敏度从而达到扩大预测可能范围,提高比对精度为目标,开发出了叫做FORTE的基于剖面比较的比对方法。使用FORTE的结构预测也在CASP比赛中获得优异的成绩。

虽然在蛋白质的结构精密化方面MD被广泛使用,但其方法的发展是有限的。折叠模拟方面,以大阪大学的中村春木教授为中心的团队,名古屋大学的冈本祐幸教授的团队等的研究走在了世界前沿。另外,基于粗粒度模型的方法也是折叠模拟的重要方法,名古屋大学的笹井理生教授等正在进行该方面的研究。

蛋白质复合物的结构预测系统方面有,东北大学的木下,大阪大学的中村等surFit [9]、东京工业大学的秋山等的MEGADOCK、北里大学的梅山、竹田志摩等的SKE-DOCK [10]。surFit就是,基于evolutionary trace法由进化计分和形状互补性的两方的船坞方法。MEGADOCK是,基于FFT library的快速化,加快船坞的速度的方法。SKE-DOCK是,基于匹配形状的船坞,因结构评价选择候补结构之后,对使用FAMS Complex的侧链进行再构造的方法。

 

参考文献

  1. K. Sumikoshi, T. Terada, S. Nakamura, K. Shimizu: A fast protein-protein docking algorithm using series expansion in terms of spherical basis functions, Genome Informatics, 16, 161-173 (2005).
  2. T. Terada, Y. Matsuo, A. Kidera: A method for evaluating multicanonical potential function without iterative refinement: Application to conformational sampling of a globular protein in water, Journal of Chemical Physics, 118, 4306-4311 (2003).
  3. R. Ishitani, T. Terada, K. Shimizu: Refinement of comparative models of protein structure by using multicanonical molecular dynamics simulations, Molecular Simulation, 34, 327-336 (2008).
  4. T. Terada, D. Satoh, T. Mikawa, Y. Ito, K. Shimizu: Understanding the roles of amino acid residues in tertiary structure formation of chignolin by using molecular dynamics simulation Proteins, 73, 3, 621-631 (2008).
  5. T. Furuta, K. Shimizu, T. Terada: Accurate prediction of native tertiary structure of protein using molecular dynamics simulation with the aid of the knowledge of secondary structures, Chemical Physics Letters, 472, 134-139 (2009).
  6. K. Sumikoshi, T. Terada, S. Nakamura, K. Shimizu: A fast protein-protein docking algorithm using series expansion in terms of spherical basis functions, Genome Informatics, 16, 161-173 (2005).
  7. G. Terashi, M. Takeda-Shitaka, K. Kanou, M. Iwadate, D. Takaya, A. Hosoi, K. Ohta, H. Umeyama: Fams-ace: a combined method to select the best model after remodeling all server models, Proteins, 69, Suppl 8, 98-107 (2007).
  8. K. Tomii, Y. Akiyama: FORTE: a profile-profile comparison tool for protein fold recognition, Bioinformatics, 20, 594-595 (2004).
  9. E. Kanamori, Y. Murakami, Y. Tsuchiya, D. M. Standley, H. Nakamura, K. Kinoshita: Docking of protein molecular surfaces with evolutionary trace analysis, Proteins, 69, 832-838 (2007).
  10. G. Terashi, M. Takeda-Shitaka, K. Kanou, M. Iwadate, D. Takaya, H. Umeyama: The SKE-DOCK server and human teams based on a combined method of shape complementarity and free energy estimation, Proteins, 69, 866-872 (2007).

 

清水谦多郎

简历

东京大学研究生院农学生命科学研究科教授。1957年4月出生。1985年东京大学研究生院(最终学历)信息科学专业,理学博士。

研究内容为蛋白质的结构预测,功能预测等。致力于生物信息学的各种方法的研究开发。食物,旨在培养和推进食品,环境等的农学分支的生物信息学方面的人才和研究,参加了生物信息学教育研究项目。

主页:http://www.bi.a.u-tokyo.ac.jp/~shimizu/

专题网页