对话可执行DNA、RNA和蛋白质任务，InstaDeep多模态智能体ChatNT

142次阅读

共计 1552 个字符，预计需要花费 4 分钟才能阅读完成。

在 AI 飞速发展的今天，从事传统生物学研究的老师和同学们，在使用最新的 AI 生物学工具时，是否常苦于要学习各种编程语言？

今天学「R 语言」，明天学「python」，后天学「大模型部署」……单单去学习新技术、新工具的使用，便耗费了同学们大量的时间与精力。

有没有一种方法仅通过对话的形式，就组合调用各类生物学大模型来执行任务呢？以前没有，现在有了！

英国伦敦 InstaDeep 公司的研究人员提出了 Chat Nucleotide Transformer（ChatNT），一个对生物序列具有高级理解能力的多模态对话智能体。

仅通过一次性英文对话，ChatNT 就能够处理 DNA、RNA 和蛋白质序列，并解决多项生物学相关的下游任务。

该研究以「A multimodal conversational agent for DNA, RNA and protein tasks」为题，于 2025 年 6 月 6 日发布在《Nature Machine Intelligence》。

语言模型蓬勃发展，赋能对话智能体，帮助人类解决各种任务。这些模型支持视觉、音频和视频等多模态，在医疗保健等多个领域大放异彩。然而，对话智能体在生物学领域的应用仍然受到限制，因为它们尚无法完全理解生物序列。

与此同时，高性能的生物序列基础模型已经通过对测序数据的自监督构建，但这些模型需要针对每个具体应用进行微调，从而阻碍了任务之间的泛化。此外，这些模型不具备对话功能，只有具备编程能力的用户才能使用它们。

因此，InstaDeep 的研究团队提出 ChatNT 来弥合生物学基础模型与对话智能体之间的差距。

具体来说，用户可以向 ChatNT 输入一个或多个 DNA 序列，并附上一段英语提示词，ChatNT 便可以解决相关的任务。

图示：ChatNT 概述。（来源：论文）

该方案使研究人员能够用相同的词汇来表达所有任务，并学习通过最小化统一目标来解决这些任务，类似于 GPT 类模型，从而实现无缝集成新任务并实现泛化。

为了实现这一目的，研究人员创建了基因组学指令任务数据集，其中包含精心挑选的英文问题和指令集，用于不同物种和基因组学过程的各种分类和回归任务。

研究人员表示，用英语制定任务也是向模型提供额外元数据信息的一种简单方法，例如物种、染色体或细胞类型，这些信息在大多数当前的 DNA 基础模型中是缺失的。

图示：基因组学、转录组学和蛋白质组学任务子集的预测性能和对话的示例。（来源：论文）

他们还纳入了与转录组学和蛋白质组学过程相关的任务，并展示了该方法在各个领域的多功能性和通用性。

图示：Nucleotide Transformer 基准测试中的表现。（来源：论文）

ChatNT 在 Nucleotide Transformer 基准测试中取得了 SOTA 的成绩，并在 27 项英文基因组学任务中展现出与专用模型相当的性能。

重要的是，与传统方法需要为每个任务专门设计一个模型不同，ChatNT 不仅提供了一个简洁自然的聊天机器人界面供用户使用，还能在一个统一的模型中解决所有任务。

图示：基于困惑度的方法来校准 ChatNT 答案的置信度，同时保持性能。（来源：论文）

该团队还引入了一种技术来探测二分类任务中语言模型的置信度，并在需要时用它来校准模型。模型解释分析表明， ChatNT 在回答不同基因组学任务时学会了关联生物学相关的序列特征。

图示：ChatNT 学会了提取 DNA 序列特征。（来源：论文）

总而言之，ChatNT 证明了自然语言 LLM 可以扩展到处理生物序列模态，不仅展现出对话能力，还能准确回答多个生物学相关问题。

论文链接：https://www.nature.com/articles/s42256-025-01047-1

正文完

发表至： AI智慧秀

2025-06-16

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

复旦团队让线粒体自噬「可视化」AI-FM揪出抗阿尔茨海默病潜力药

ETH的新强化学习方法使微型机器人在血管里不再迷路