中山大学：解锁“AI+病毒学”的科学密码_业界新闻

“通过LucaProt，我们发现了许多未研究过的病毒群体，以及具有特殊长度、复杂基因组结构的RNA病毒类型。”中山大学医学院施莽教授团队从“已知”中寻找“未知”，将人工智能技术应用于病毒鉴定。他们跨越重重技术难关，发现了大量全新RNA病毒。

过去，人们通过分离培养病毒，在显微镜下观察确认病毒的存在。随着技术发展，科学家们利用测序技术，通过比较未知病毒和已知病毒核酸序列的相似性，来识别和鉴定新病毒。然而，这些传统的病毒发现方法比较依赖既有知识，尤其在面对缺乏同源性或同源性低的“暗物质病毒”时，很容易失灵。

如何突破传统病毒发现方法的瓶颈，用更高效、更精准的方法去发现和鉴定新病毒，并进行下游的验证工作？这是摆在中山大学研究团队面前的现实问题。

2020年起，中山大学研究团队开发了一种基于同源性的生物信息学算法，它能够帮助科研人员发现远缘的病毒，但仍面临着操作烦琐，以及难以深入探测“暗物质病毒”的技术难关。2022年，中山大学研究团队与阿里云李兆融团队的一次偶然交流，为发现“暗物质病毒”带来了契机。此后，两个团队展开紧密合作，联合开发用于病毒发现的人工智能模型。

合作的初期，中山大学研究团队对新兴AI模型不熟悉，阿里云的算法工程师们不了解病毒学。为搭建服务于病毒鉴定的人工智能模型，双方不断为对方普及各自领域的知识。尽管相隔数千公里，在日常线上沟通的基础上，他们还经常互相拜访，共同讨论问题。

除沟通问题外，模型优化也是一个不小的挑战。当时，中山大学研究团队基于蛋白质序列数据训练模型，经过测试后，模型的准确率能达到80%以上，但团队认为仍有提升空间。项目相关负责人回忆：“通过进一步讨论，我们意识到过去的研究过于依赖序列信息，而忽视了结构信息的重要性。”因此，他们更新了模型，在传统的序列比较基础上，加入预测的蛋白质结构信息。这样的改进大幅提升了区分RNA病毒的准确性和效率。

反复优化模型后，LucaProt人工智能算法能够对病毒和非病毒基因组序列深度学习，且能在数据集中后，自主判断病毒序列。“与传统方法相比，LucaProt结合了序列和预测结构信息，在准确性、效率以及检测病毒多样性方面，展现出了很大优势。”项目相关负责人介绍，LucaProt人工智能算法专为RNA病毒发现而设计，其框架融合了蛋白质序列与隐含的结构信息。科研人员输入蛋白质序列，就可以对该序列进行判别。

“人工智能的速度和精度可以帮助科学家更快地锁定潜在病原体，而这种能力在疾病防控和新病原的快速识别中尤为重要。”在施莽看来，人工智能是一位“好助手”。

在来自全球生物环境样本的10487份RNA测序数据中，研究团队利用这套算法，发现了超过51万条病毒基因组，代表超过16万个潜在病毒种及180个RNA病毒超群，使RNA病毒超群数量扩容约9倍。其中23个超群无法通过序列同源方法识别，被称为病毒圈的“暗物质”。

新病毒的发现，刷新着科学家对病毒圈的认识。通过进一步分析，团队报告了迄今最长的RNA病毒基因组，长度达到47250个核苷酸，并发现了超出以往认知的基因组结构，展现出RNA病毒基因组进化的灵活性。项目相关负责人表示，LucaProt在未来将成为重要的病毒鉴定工具。随着病毒数据积累得越来越多，研究团队可以在此基础上开展增量训练，进一步发现更多缺乏序列同源性的“暗物质病毒”。

“病毒的多样性远超人类想象，我们目前所看到的仍是冰山一角。”在施莽看来，团队的研究展示了病毒多样性的深度，但广度仍有待更多样本的补充。

本文网址：http://www.jypx888.com:443/show.asp?id=15752