零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

8次阅读
没有评论

共计 2619 个字符,预计需要花费 7 分钟才能阅读完成。

AI 自主发现进行药物发现的时代,真的来临了。

近期,上海交通大学、临港实验室、上海人工智能实验室、复旦大学、MIT 等国内外顶尖机构,发布的 AI 智能体系统 “元生”(OriGene)实现重大突破——首次自主发现针对肠癌、肝癌等疾病的原创靶标,并经实验概念验证了其治疗潜力。这是一项真正的科学发现!

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

论文链接:https://www.biorxiv.org/content/10.1101/2025.06.03.657658v1

代码仓库:https://github.com/GENTEL-lab/OriGene

靶标发现:新药研发的 “死亡谷”

在创新药物研发中,“靶标发现” 是至关重要的一环,直接影响下游药物的开发。全球超九成候选药物在临床阶段宣告失败,超 50% 是因源头的靶标选择不当。然而目前靶标发现仍主要依赖疾病生物学家的经验和直觉,需从海量碎片化数据中整合多维证据。

当前基于大语言模型(LLM)的科学智能体已经在工具协同调用、文献数据融合与科学推理自动化方面取得进展,但这些模型都没有针对 “靶标发现” 这一任务进行优化,无法有效处理靶标发现过程中涉及的多模态、多尺度数据与证据。同时,该领域也缺乏公认的标准化基准,严重阻碍了相关模型能力的系统化评估。

多智能体虚拟疾病生物学家 “元生”(OriGene)首次为靶标发现难题提供了完全端到端的解决方案!

为验证 “元生” 的性能,研究团队构造了全球首个靶标发现测评基准数据集 TRQA,并以 60.08% 的得分显著超越允许使用搜索引擎的人类领域专家(55%),同时在文献选择题任务中全面压制 DeepSeek-V3、GPT-4o 等主流模型。

在考察精准文献解析能力的简答题(TRQA-lit)和药物竞争格局数据库推理(TRQA-db)任务中,OriGene 分别以 82.76% 与 72.05% 的得分刷新纪录,相对次优模型最高提升达 32.1%。

不仅如此,在肝癌、结直肠癌这两个真实疾病场景中,“元生” 也通过信息检索、多模态数据整合等策略优先筛选出 G 蛋白偶联受体 160(GPR160)和精氨酸酶 2(ARG2)作为最具潜力的治疗靶标,并通过细胞实验初步验证了靶标的有效性。

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

细胞实验初步了验证 “元生” 筛选得到的靶标的有效性

核心架构:模拟专家思维的自进化多智能体系统

“元生” 核心并非单一大模型,而是遵循一套严谨的端到端工作流。

首先,系统基于一个融合了领域专家知识与顶尖科研范式的 “思维模板库”,将复杂的生物学问题系统性拆解为可验证的子任务。

其次,它会动态调用一个包含超过 500 个与靶标发现密切相关的专业工具与数据库,为每个子任务构建专属的解决路径。

最后,通过对多模态证据的深度融合与推理,“元生” 能生成具有清晰机理、可解释、可追溯的原创科学假说,为实验验证提供精准指导。

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

“元生” 工作流程

破除幻觉:以思维模板实现可解释的深度推理

与通用领域相比,医学领域对幻觉的容忍度较低。为克服通用大模型在专业领域常见的 “逻辑幻觉”, “元生” 提出了结构化思维模板增强框架用于指导问题拆分与思考推理这一核心机制。

研究团队通过分析生物医学文献中所包含的研究范式的逻辑架构,构建了一个可复用的领域推理模板库,并将其植入 Coordinator(协调)、Planning(规划)、Reasoning(推理)、Critic(评价)和 Report(汇报)这五个智能体中。

这使得 “元生” 在进行问题拆解和工具选择时,能遵循科学规律,而非依赖模型的自由推理,从而能够集成人类科学家的高质量思维,减轻逻辑幻觉。

更重要的是,“思维模板” 将隐性的决策过程显性化、透明化,当结论存疑时,可精准回溯至具体的逻辑节点,极大地提升了研究过程的可解释性、可审计性与责任可追溯性。

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

思维模板示例:探究与甲氨蝶呤(MTX)联合应用、基于反应机制的现代药物靶标,用于类风湿性关节炎(RA)治疗,还有哪些潜在新组合可供挖掘?

性能暴涨:无需重训的双层自进化机制

“元生” 最关键的创新在于其无需重新训练的 “双层自我进化” 能力,使其具备持续成长的潜力。在双层优化机制中,第一层为任务内动态优化(Test-time Scaling)。针对单一问题,智能体通过 “任务分解 – 工具调用 – 结果反思 – 策略重规划” 的闭环进行多轮深度思考,迭代次数越多,响应质量越高,尤其擅长攻克需要深度领域知识的复杂难题。

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

“元生” 的双层自我迭代进化机制

第二层则为系统级能力演进(Capability Evolving)。“元生” 能自动从专家或实验验证的最高质量解决方案中,提炼并生成新一代的 “思维模板”。这些更优的模板被反哺回系统知识库,形成了一个强大的良性循环,使其系统性能力随经验积累而持续提升。

首创评测:在全新基准 TRQA 上超越人类专家与顶尖模型

为科学评估 “元生” 真实性能,团队构建了全球首个针对靶标发现领域的综合性基准数据集 TRQA (Target Research Question-Answering),包括文献解析数据集 TRQA-lit(1280 题)和竞争格局分析数据集 TRQA-db(641 题)两部分,填补了该领域长期存在的评测空白。TRQA 的题目设计对标药理学家的实际工作场景,难度达到专家级水平,是评估靶标发现能力的黄金标准。

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

基准数据集 TRQA 构建过程

在 TRQA 基准测试中,“元生” 的性能全面超越了允许使用搜索引擎的人类专家组,并显著领先于 DeepSeek-R1、GPT-4o,Claude 3.7 等前沿模型。此外,在 GPQA、DbQA、LitQA 等多个公开基准测试中,“元生” 同样表现出大幅领先的优势,证明了其在复杂科学推理、结构化数据交互和文献理解等方面的卓越能力。

零训练实现自我演化!首个科学智能体架构的AI疾病生物学家发布

在基准数据集 TRQA 中 OriGene 表现超越人类专家及其他基准模型并在各子领域基准测试场景中 OriGene 均取得最优表现

未来展望:科学智能体路在何方

作为一项开创性成果,“元生” 在短短两周内自主发现了肝癌与肠癌的两个全新靶标,展现出超越人类顶尖专家的靶标发现能力。目前,“元生” 仍在持续迭代进化。

未来,这支由顶级研究专家组成的科研团队将长期投入,持续打磨这款具有里程碑意义的工具。通过提升工具调用效率与主题聚焦能力,扩展可接入的数据集与工具类型,并加强生成内容的评价与过滤机制,“元生” 有望为新药研发提速、攻克重大疾病注入前所未有的中国力量。

文章来源:https://baijiahao.baidu.com/s?id=1834799829508460814

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2025-06-16发表,共计2619字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)