对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

6次阅读
没有评论

共计 1552 个字符,预计需要花费 4 分钟才能阅读完成。

在 AI 飞速发展的今天,从事传统生物学研究的老师和同学们,在使用最新的 AI 生物学工具时,是否常苦于要学习各种编程语言?

今天学「R 语言」,明天学「python」,后天学「大模型部署」……单单去学习新技术、新工具的使用,便耗费了同学们大量的时间与精力。

有没有一种方法仅通过对话的形式,就组合调用各类生物学大模型来执行任务呢?以前没有,现在有了!

英国伦敦 InstaDeep 公司的研究人员提出了 Chat Nucleotide Transformer(ChatNT),一个对生物序列具有高级理解能力的多模态对话智能体。

仅通过一次性英文对话,ChatNT 就能够处理 DNA、RNA 和蛋白质序列,并解决多项生物学相关的下游任务。

该研究以「A multimodal conversational agent for DNA, RNA and protein tasks」为题,于 2025 年 6 月 6 日发布在《Nature Machine Intelligence》。

对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

语言模型蓬勃发展,赋能对话智能体,帮助人类解决各种任务。这些模型支持视觉、音频和视频等多模态,在医疗保健等多个领域大放异彩。然而,对话智能体在生物学领域的应用仍然受到限制,因为它们尚无法完全理解生物序列。

与此同时,高性能的生物序列基础模型已经通过对测序数据的自监督构建,但这些模型需要针对每个具体应用进行微调,从而阻碍了任务之间的泛化。此外,这些模型不具备对话功能,只有具备编程能力的用户才能使用它们。

因此,InstaDeep 的研究团队提出 ChatNT 来弥合生物学基础模型与对话智能体之间的差距。

具体来说,用户可以向 ChatNT 输入一个或多个 DNA 序列,并附上一段英语提示词,ChatNT 便可以解决相关的任务。

对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

图示:ChatNT 概述。(来源:论文)

该方案使研究人员能够用相同的词汇来表达所有任务,并学习通过最小化统一目标来解决这些任务,类似于 GPT 类模型,从而实现无缝集成新任务并实现泛化。

为了实现这一目的,研究人员创建了基因组学指令任务数据集,其中包含精心挑选的英文问题和指令集,用于不同物种和基因组学过程的各种分类和回归任务。

研究人员表示,用英语制定任务也是向模型提供额外元数据信息的一种简单方法,例如物种、染色体或细胞类型,这些信息在大多数当前的 DNA 基础模型中是缺失的。

对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

图示:基因组学、转录组学和蛋白质组学任务子集的预测性能和对话的示例。(来源:论文)

他们还纳入了与转录组学和蛋白质组学过程相关的任务,并展示了该方法在各个领域的多功能性和通用性。

对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

图示:Nucleotide Transformer 基准测试中的表现。(来源:论文)

ChatNT 在 Nucleotide Transformer 基准测试中取得了 SOTA 的成绩,并在 27 项英文基因组学任务中展现出与专用模型相当的性能。

重要的是,与传统方法需要为每个任务专门设计一个模型不同,ChatNT 不仅提供了一个简洁自然的聊天机器人界面供用户使用,还能在一个统一的模型中解决所有任务。

对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

图示:基于困惑度的方法来校准 ChatNT 答案的置信度,同时保持性能。(来源:论文)

该团队还引入了一种技术来探测二分类任务中语言模型的置信度,并在需要时用它来校准模型。模型解释分析表明, ChatNT 在回答不同基因组学任务时学会了关联生物学相关的序列特征。

对话可执行DNA、RNA和蛋白质任务,InstaDeep多模态智能体ChatNT

图示:ChatNT 学会了提取 DNA 序列特征。(来源:论文)

总而言之,ChatNT 证明了自然语言 LLM 可以扩展到处理生物序列模态,不仅展现出对话能力,还能准确回答多个生物学相关问题。

论文链接:https://www.nature.com/articles/s42256-025-01047-1

文章来源:https://baijiahao.baidu.com/s?id=1834995065284024152

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2025-06-16发表,共计1552字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)