优于人类专家，GPT-4 准确注释单细胞类型，成本低且稳健

533次阅读

共计 1699 个字符，预计需要花费 5 分钟才能阅读完成。

编辑 | 萝卜皮

GPT-4 是一种专为语音理解和生成而设计的大型语言模型。

哥伦比亚大学梅尔曼公共卫生学院（Columbia University Mailman School of Public Health）的 Wenpin Hou 和杜克大学医学院（Duke University School of Medicine）的 Zhicheng Ji 证明，大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。

「注释单个细胞的细胞类型的过程通常非常耗时，需要人类专家比较跨细胞簇的基因。」Wenpin Hou 博士说。

当对数百种组织和细胞类型进行评估时，GPT-4 生成的细胞类型注释与手动注释表现出很强的一致性。此功能可以大大减少细胞类型注释所需的人类专家工作量和专业知识。并且，研究人员还为 GPT-4 的自动细胞类型注释开发了 R 软件包 GPTCelltype。

该研究以「Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis」为题，于 2024 年 3 月 25 日发布在《Nature Methods》。

细胞类型注释是单细胞 RNA 测序 (scRNA-seq) 分析的基本步骤。这个过程通常既费力又耗时，需要人类专家将每个细胞簇中高表达的基因与典型细胞类型标记基因进行比较。虽然自动化细胞类型注释方法已经开发出来，但手动注释仍然是主流方式。

生成式预训练 Transformer (GPT)，包括 GPT-3.5 和 GPT-4，是专为语言理解和生成而设计的大型语言模型。最近的研究证明了它们在生物医学领域的有效性。

在这里，研究人员假设 GPT-4 可以准确地注释细胞类型，将注释过程从手动转变为半甚至全自动程序。GPT-4 具有成本效益，并且可以无缝集成到现有的单细胞分析流程（例如 Seurat）中，从而无需构建额外的流程并收集高质量的参考数据集。GPT-4 的大量训练数据可在各种组织和细胞类型中实现更广泛的应用，其聊天机器人性质允许用户驱动的注释细化。

图示：GPT-4 细胞类型注释示例以及与其他方法的比较。（来源：论文）

该团队系统地评估了 GPT-4 在十个数据集中的细胞类型注释性能，涵盖五个物种和数百种组织和细胞类型，包括正常和癌症样本。

使用他们开发的软件工具 GPTCelltype 查询 GPT-4。对于竞争方法，研究人员评估了GPT-3.5（GPT-4的早期版本）以及 CellMarker2.0、SingleR 和ScType，它们是自动细胞类型注释方法，提供适用于大量组织的参考。

GPT-4 或竞争方法的细胞类型注释根据其与原始研究提供的手动注释的一致性进行评估。使用数字分数来衡量一致性程度。

分析结果

研究人员首先探讨了可能影响 GPT-4 注释准确性的不同因素。当使用前十个差异基因时，以及当使用两侧 Wilcoxon 检验导出差异基因时，GPT-4 表现最佳。

GPT-4 在各种提示策略中表现出相似的准确性，包括基本提示策略、包含推理步骤的思维链启发的提示策略以及重复提示策略。在后续分析中，GPT-4 和 GPT-3.5 均使用基本提示策略，以 Wilcoxon 检验获得的前十个差异基因作为适用数据集的输入。

在大多数研究和组织中，GPT-4 的注释完全或部分匹配超过 75% 的细胞类型的手动注释，证明了其生成与专家可比较的细胞类型注释的能力。对于来自文献检索的标记基因，这种一致性特别高，在大多数组织中至少有 70% 的完全匹配率。即使通过差异分析鉴定的基因较低，但一致性仍然很高。不过，应谨慎解释 2021 年 9 月之前发布的数据集的结果，因为它们早于 GPT-4 的训练截止时间。

与其他细胞类型相比，GPT-4 对粒细胞等免疫细胞表现更好。它可以识别结肠癌和肺癌数据集中的恶性细胞，但无法识别 B 淋巴瘤，这可能是由于缺乏独特的基因集。恶性细胞的鉴定可以受益于其他方法，例如拷贝数变异。

在包含不超过 10 个细胞的小细胞群中，性能略有下降，这可能是由于可用信息有限。GPT-4注释在主要细胞类型（例如 T 细胞）中比在亚型（例如 CD4 记忆 T 细胞）中更频繁地完全匹配手动注释，而超过75%的亚型仍然实现完全或部分匹配。