机器学习提升蛋白质设计采样效率,但评分仍是一大挑战
时间:2025-03-15 22:50
小编:小世评选
在过去的几十年中,机器学习(ML)技术不断进步,正在深刻改变生物科学领域,尤其是蛋白质设计的研究。最近的研究表明,数据驱动的方法在实验成功率上超越了传统的生物物理方法,它们的应用常常局限于案例研究,缺乏系统的整合与标准化,导致在不同研究结果之间的比较变得极其困难。
德国莱比锡大学的跨学科研究团队在最近的研究中,以Rosetta软件框架为基础,建立了一个多样化且精简的工具箱,旨在预测氨基酸的概率分布。这一工具允许科学家对不同的机器学习模型进行并排比较,并基于现有的蛋白质适应度景观,对新型ML方法进行基准测试。研究负责人Clara Schoeder教授指出,这样的努力为推动蛋白质设计领域建立有效的模型描述与可用性标准做出了重要贡献。
蛋白质设计的核心挑战可以归结为两个问题:采样和评分。研究团队的发现表明,机器学习方法在清除采样空间中有害突变方面表现优异,能够有效提高高适应度蛋白质变体的生成。这些模型在对候选序列的评分上,与传统的Rosetta评分系统相比却未能显著改善。由此机器学习仍然是作为补充存在于蛋白质设计的生物物理方法中,而不是作为替代。
在这项研究中,科学家们将自监督机器学习方法的性能与传统生物物理方法进行了对比。他们通过在大型蛋白质适应度数据集上训练模型(被称为“预言机”),分析了16种不同方案的采样和评分行为。研究结果显示,尽管ML方法能够更好地剔除序列空间内的有害突变,但在如何有效地评分和排序候选序列方面仍存在明显的不足。
为更好地理解和解决这一问题,研究团队探讨了提升采样温度、增加变体多样性与拓展适应度分布的影响。他们的结果表明,单一的机器学习方法在所有测试用例中未必表现最优,因此,需要根据具体任务灵活选择和组合使用不同的方法。
在实现自监督ML的最佳实践方面,团队提出了两种策略:一是低温迭代采样以生成较少但高适应度的变体,适用于实验能力有限的环境;二是提高采样温度以生成大量候选序列,适合大规模高通量实验。值得注意的是,事后使用计算机评分来筛选大量变体的效果较差,而通过微调预训练模型则在复杂功能预测中显示出优势。
尽管研究显示该模型在某些情况下能够提供更好的适应度预测,但当面对复杂的生物学问题时,如抗体设计和酶功能预测,ML方法的局限性依然明显。评分指标的不完整性会影响结果,这表明采样和评分之间存在密不可分的关系。
面对这些挑战,研究团队计划进一步探索直预测蛋白质适应度的监督式机器学习模型潜力,并考察与传统enzyme engineering方法的结合如何能提升蛋白质设计的有效性。
这项研究展示了机器学习在提高蛋白质设计采样效率方面的潜力,但同时也强调了评分和排序任务的复杂性。科学界对机器学习与生物物理方法的结合抱有宽广的希望,认为二者的合理融合将促进蛋白质设计的快速发展。随着新的方法不断涌现,未来的蛋白质药物和材料的开发将变得更加高效和可靠。
参考文献:
1. Clara Schoeder et al. (2025) "Self-supervised machine learning methods for protein design improve sampling but not the identification of high-fitness variants", Science Advances.
2. 相关报道链接: [Phys.org](https://phys.org/news/2025-02-ai-biophysical-protein.html)
免责声明:本文旨在非商业性的教育和科研目的,版权归原作者所有,如有侵权请及时与我们联系,我们将及时删除。