大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

6次阅读
没有评论

共计 3261 个字符,预计需要花费 9 分钟才能阅读完成。

由哈佛大学医学院与附属 BWH 医院 YLab 团队领衔,联合 UIUC、MIT、斯坦福、梅奥诊所等多个团队,共同发布了 BRIDGE —全球首个专注真实临床文本的多语言大语言模型评测!

该测评构建了 87 个真实世界的电子病历任务,覆盖 9 种语言,并且评估了 65 种当前最先进的大语言模型,是当前最全面、规模最大的 LLM 在医学应用的评测之一。

论文链接:https://arxiv.org/pdf/2504.19467

临床实战 —— 大语言模型在医疗的下一个战场

自两年前 GPT-4 和 Med-PaLM-1/2 刷榜美国医考 USMLE,轻松拿下「专家级」高分,验证了大语言模型(LLM)在医疗任务中的潜力,LLM 已被广泛应用于医疗领域。

但伴随着 LLM 在医疗领域的深入探索,越来越多研究与实践经验表明:考场高分 ≠ 临床实践。真实世界的临床文本和任务与文本规范的医考选择题截然不同:

语言风格不同,文本形态灵活

电子病历中大量缩写和临床惯用表达,患者表述中的不规范文本、错别字等;

模板+自由输入混杂,结构松散不一、噪声极高。

任务维度更广,涉及更多考量

不只是选择题,更多临床关心的任务亟待探索:表型提取、ICD-10 编码等;

不同语言、不同任务类型、不同临床专业等评估都是刚需。

同时,当前 LLM 发展迅猛,各家大模型「百花齐放」且更新频繁,越来越需要一个全面的真实临床文本评测构建起 LLM 开发与临床实践之间的「桥梁」!

因此,BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)就是要把大模型拉到真实的临床文本和任务面前「实战」,希望给大家带来新的参考:

医生

快速查看适合自己语言、科室、任务的最优模型,安心选型;

LLM 开发者

全面考察模型,精准发现短板,进一步提升模型的适应性;

医院 / 监管

系统性地分析性能差异,权衡使用方式/部署资源,制定相关标准。

BRIDGE概要

依托于团队前期发表于《NEJM AI》的全球临床文本数据集系统性综述,收集整理了大量开源的临床文本数据集,并进一步加以改造适应于 LLM 执行,从而构建了目前规模最大、覆盖最全的多语言真实世界临床文本(电子病历和在线问诊)数据大语言模型评测。

目前,已全面评估了 65 个当前最先进的LLM的性能,包括 DeepSeek-R1, Google Gemini, GPT-4o, Qwen3, Llama 4,MedGemma, Baichua-M1 等开源、闭源、医学专用 LLM,结合提出的系统性分类框架,从语言、专业科室、任务类型等多维度提供全面的性能分析,相关结果已上线实时排行榜

相关链接:https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

结果速览

开源模型发展迅猛,DeepSee-R1领跑

三种推理策略下的综合排名:

零样本(Zero-shot) — 直接输出目标答案 DeepSeek-R1(44.2),GPT-4o(44.2),Gemini-1.5-Pro(43.8);

思维链(Chain-of-thought) — 输出推理过程与答案,增强解释性 DeepSeek-R1(42.2),Gemini-2.0-Flash(43.8),GPT-4o(40.7);

少样本(Few-shot) — 提供5个随机的样本,包含完整输入和输出Gemini-1.5-Pro(55.5),Gemini-2.0-Flash(53.3),GPT-4o(52.6)。

在最新一轮排行榜中,DeepSeek-R1 已超越 GPT-4o、Gemini 等商业化闭源模型,在零样本和 CoT 设置下都占据榜首。随着时间推移,开源模型和商业化模型的差距在逐渐缩小。

Mistral、Qwen、Gemma、Llama 等一系列开源模型迭代发展、持续发力,直至 DeepSeek-R1 带来突破。

其中,最新的 MedGemma 和 Qwen3 表现亮眼:MedGemma-27B 在少样本设置下排名第 4,甚至超过 DeepSeek-R1,Qwen3-235B-A22B-Thinking 在零样本和思维链设置下分别排名第 7 和第 5,而 Llama-4 却表现不佳,甚至不如 Llama3。

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

少样本是最高效的性能提升途径,思维链可能损害性能

给 LLM 提供 5 条随机示例,能够使大多数模型性能显著增长,不仅领先的 LLM 进一步突破,如 DeepSeek-R1(44.2 到 51.4,+16.3%),较小的 LLM 更是「脱胎换骨」,如 Llama-3.2-1B(从 12.7到 24.4, +92.1%。相比之下,思维链虽然能够提高模型解释性,促进与医生患者的交互,但导致了大多数模型的性能下降。

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

Scaling Law在医疗领域依旧明显

纵向比对同一模型家族的不同参数版本,整体而言模型越大表现越好,验证了在临床文本任务上的 Scaling Law。业界常用的~70B 模型整体性能较优,排在第二梯队,而在小型 LLM(≤30B)中,MedGemma 和Baichuan-M1-14B 两个专门的医学领域模型表现亮眼,为资源受限的部署场景提供了轻量化选项。

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

医学LLM潜力巨大,但还需全面加强

MedGemma 和 Baichuan-M1-14B 等最新的医学LLM性能强劲,甚至超过了许多 70B 的模型,但其他医学 LLM 则表现不佳,甚至未跑赢同代的通用 LLM。

同时,这些医学 LLM 往往在少样本设置下涨点明显,可能表明其指令跟随能力较弱。整体结果暴露出部分医学 LLM 的基座模型版本偏老,预训练数据、监督训练任务与真实临床文本脱节等潜在问题。

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

不同任务表现差异较大:

文本分类、自然语言推理等标签明确的分类任务表现较优,而 NER 与事件提取任务则需要少样本的加持提升性能,表明这些任务更需要示例来澄清详细的标签定义和标准。

与此同时,需要与标准化医疗编码系统(如 ICD-10)保持一致的规范化和编码任务仍然特别具有挑战性,因为许多 LLM 缺乏对这些代码的内置映射。

尽管少样本学习带来适度的改进,但这些编码任务的性能仍然相对较低(约 15%)。QA 和摘要在内的文本生成任务的平均性能较低约为 20%,表明 LLM 在临床文本生成方面面临着挑战。

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

更多:多语言、多临床场景、多专科验证

不同语言、不同专科的榜首各有归属:DeepSeek-R1 在中文、西班牙语、德语、俄语中独占鳌头,Gemini 对英文表现突出。而不同的临床场景和专业科室也表现不同,体现出需要进一步结合具体任务选择合适的模型。

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

结语

开源模型持续发力,整体性能不逊商业化模型;

少样本推理策略目前是成本最低、收益最稳的 LLM 提升途径;

70 B 仍是效果与资源平衡的主流选项,而高质量的小模型正在加速发展;

医学专业模型需要更新基座、拥抱更广泛的真实临床文本与任务;

没有一款模型可以跨所有语言与专科「通吃」,针对性评测与配置仍是落地关键。

要想将 LLM 在临床领域进一步落地,还需要更多的「BRIDGE」来全面评估 LLM 在真实世界临床文本与任务中的表现,研发出更加可靠和全面的 LLM!

研究助理/博士后机会:

哈佛大学医学院和布莱根妇女医院 Jie Yang 课题组和 Josh Lin 课题组联合招聘博士后或者科研助理一名,研究方向为 Clinical natural language processing, LLM in healthcare。

跨学科团队:与 Harvard、MIT、Mayo 的 AI 研究员、临床医生合作

数据资源丰富:近 2 亿份 EHR 电子病例数据,覆盖 180 万患者,连接保险理赔数据;同时可以申请 MGB 十余家合作医院的病历数据。

计算资源:8xH100 等高性能 GPU,高性能计算集群以及 Azure 云计算资源研究

前沿:LLM in EHR、医疗文本理解与推理

环境开放灵活,适合科研成长与职业发展

详情请前往招聘页面:https://ylab.top/opportunities/

文章来源:https://baijiahao.baidu.com/s?id=1834994849677422025

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2025-06-16发表,共计3261字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)