共计 829 个字符,预计需要花费 3 分钟才能阅读完成。
大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。
最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。
虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。
来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医学任务中的表现,评估了 37 个医学数据集(包括两个新的 QA 基准)的理解、推理和多语言性。
分析表明,LLM 的推理能力增强可能会有利于其理解各种医疗指令和推理复杂临床场景的能力。值得注意的是,在 19 个数据集和两个新创建的复杂 QA 场景中,o1 的准确率平均比之前的 GPT-4 高出 6.2% 和 6.6%。
相关研究以《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》为题,发布在预印平台 arXiv 上。
论文链接:
LLM 通过下一个 token 预测和指令微调在语言理解任务中取得了显著进展。然而,它们经常在复杂的逻辑推理任务中挣扎。
为了克服这个问题,研究人员引入了 CoT 提示,引导模型模拟人类的推理过程。OpenAI 的 o1 模型经过大量 CoT 数据和强化学习训练,旨在增强推理能力。像 GPT-4 这样的 LLM 在医学领域表现出色,但领域特定的微调对于可靠的临床应用是必要的。
该研究调查了 o1 在临床应用方面的潜力,显示了理解、推理和多语言能力的提高。
评估流程侧重于模型能力的三个关键方面:理解、推理和多语言性,以满足临床需求。在 37 个数据集中进行测试,涵盖概念识别、总结、问答和临床决策等任务。三种提示策略——直接提示、思维链和少量学习——指导模型。