共计 1552 个字符,预计需要花费 4 分钟才能阅读完成。
在 AI 飞速发展的今天,从事传统生物学研究的老师和同学们,在使用最新的 AI 生物学工具时,是否常苦于要学习各种编程语言?
今天学「R 语言」,明天学「python」,后天学「大模型部署」……单单去学习新技术、新工具的使用,便耗费了同学们大量的时间与精力。
有没有一种方法仅通过对话的形式,就组合调用各类生物学大模型来执行任务呢?以前没有,现在有了!
英国伦敦 InstaDeep 公司的研究人员提出了 Chat Nucleotide Transformer(ChatNT),一个对生物序列具有高级理解能力的多模态对话智能体。
仅通过一次性英文对话,ChatNT 就能够处理 DNA、RNA 和蛋白质序列,并解决多项生物学相关的下游任务。
该研究以「A multimodal conversational agent for DNA, RNA and protein tasks」为题,于 2025 年 6 月 6 日发布在《Nature Machine Intelligence》。
语言模型蓬勃发展,赋能对话智能体,帮助人类解决各种任务。这些模型支持视觉、音频和视频等多模态,在医疗保健等多个领域大放异彩。然而,对话智能体在生物学领域的应用仍然受到限制,因为它们尚无法完全理解生物序列。
与此同时,高性能的生物序列基础模型已经通过对测序数据的自监督构建,但这些模型需要针对每个具体应用进行微调,从而阻碍了任务之间的泛化。此外,这些模型不具备对话功能,只有具备编程能力的用户才能使用它们。
因此,InstaDeep 的研究团队提出 ChatNT 来弥合生物学基础模型与对话智能体之间的差距。
具体来说,用户可以向 ChatNT 输入一个或多个 DNA 序列,并附上一段英语提示词,ChatNT 便可以解决相关的任务。
图示:ChatNT 概述。(来源:论文)
该方案使研究人员能够用相同的词汇来表达所有任务,并学习通过最小化统一目标来解决这些任务,类似于 GPT 类模型,从而实现无缝集成新任务并实现泛化。
为了实现这一目的,研究人员创建了基因组学指令任务数据集,其中包含精心挑选的英文问题和指令集,用于不同物种和基因组学过程的各种分类和回归任务。
研究人员表示,用英语制定任务也是向模型提供额外元数据信息的一种简单方法,例如物种、染色体或细胞类型,这些信息在大多数当前的 DNA 基础模型中是缺失的。
图示:基因组学、转录组学和蛋白质组学任务子集的预测性能和对话的示例。(来源:论文)
他们还纳入了与转录组学和蛋白质组学过程相关的任务,并展示了该方法在各个领域的多功能性和通用性。
图示:Nucleotide Transformer 基准测试中的表现。(来源:论文)
ChatNT 在 Nucleotide Transformer 基准测试中取得了 SOTA 的成绩,并在 27 项英文基因组学任务中展现出与专用模型相当的性能。
重要的是,与传统方法需要为每个任务专门设计一个模型不同,ChatNT 不仅提供了一个简洁自然的聊天机器人界面供用户使用,还能在一个统一的模型中解决所有任务。
图示:基于困惑度的方法来校准 ChatNT 答案的置信度,同时保持性能。(来源:论文)
该团队还引入了一种技术来探测二分类任务中语言模型的置信度,并在需要时用它来校准模型。模型解释分析表明, ChatNT 在回答不同基因组学任务时学会了关联生物学相关的序列特征。
图示:ChatNT 学会了提取 DNA 序列特征。(来源:论文)
总而言之,ChatNT 证明了自然语言 LLM 可以扩展到处理生物序列模态,不仅展现出对话能力,还能准确回答多个生物学相关问题。
论文链接:https://www.nature.com/articles/s42256-025-01047-1