大语言模型如何助力药物开发? 哈佛团队最新综述

565次阅读

没有评论

共计 3215 个字符，预计需要花费 9 分钟才能阅读完成。

本文将大语言模型分为两类: 科学大语言模型（Scientific Language Model）和一般大语言模型（General Language Model）。两者的对比和差异如下:

科学大语言模型：

通用语言模型：

大语言模型在理解疾病机制中的作用

图示：了解疾病机制。这张图表分为两部分，左边展示了疾病研究的关键流程，右边展示了大语言模型（LLM）在这些流程中的具体应用领域。（来源：论文）

疾病研究流程

1.临床分型（Clinical Sub-typing）：

通过多组学数据的收集（如基因、蛋白质、代谢组等），结合临床分析和伦理法规要求，对疾病进行分型。目的是更好地理解疾病的异质性，从而为后续的靶点发现打下基础。

2.靶点-疾病关联（Target-Disease Linkage）：

通过基因表达谱分析、多通路分析等方法，结合实验工具（如 CRISPR-Cas9、RNA 干扰等），寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。

3.靶点验证（Target Validation）：

验证靶点的安全性与可行性，评估其药物开发潜力。涉及靶点安全、药物可及性（Drugability）和测试可行性。靶点的作用机制（如激动剂、拮抗剂、调节剂等）也会在这一阶段进行确认，从而选择合适的治疗方式，如蛋白质、小分子或RNA治疗。

LLM 的应用领域

1.基因组分析（Genomics Analysis）：

LLM 可以帮助预测基因变异、启动子区域、转录因子结合位点等信息，从而帮助科研人员在基因组层面理解疾病机制。

2.转录组分析（Transcriptomics Analysis）：

LLM 可以处理 mRNA 表达分析、基因网络分析等复杂数据，辅助研究人员挖掘重要的转录组信息，了解基因的调控模式和表达差异。

3.蛋白质靶点分析（Protein Target Analysis）：

LLM 能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息，帮助科研人员选择潜在的药物靶点。

4.疾病通路分析（Disease Pathway Analysis）：

LLM 在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用，识别潜在的治疗靶点和干预途径，从而加速药物开发过程。

5.辅助功能（Assistance）：

LLM 还可以提供知识发现、信息检索等辅助功能，帮助科研人员快速获取相关信息，加快研究进程。

大语言模型在药物发现中的作用

图示：药物发现。这张图分为两部分，左边展示了药物发现的过程，右边展示了大语言模型（LLM）在药物发现各阶段的具体应用。（来源：论文）

药物发现过程

1.药物类型选择：

科学家可以选择不同的治疗方式，包括蛋白质、小分子药物和 RNA。该图以小分子药物为例，展示了它们在药物开发中的应用。

2.药物发现流程：

LLM 的应用领域

1.化学领域（Chemistry）：

LLM 可以用于化学机器人自动化合成、逆合成规划和反应预测等任务，帮助化学家加速化合物的发现。

2.计算机模拟（In Silico Simulation）：

LLM 能够进行分子生成、蛋白质生成和蛋白质-配体相互作用预测，从而加快虚拟药物筛选过程。

3.ADMET预测：

LLM 能够预测候选药物的药代动力学（Pharmacokinetics）、毒性（Toxicity）和理化性质（Physicochemical Properties），帮助评估药物在人体中的行为。

4.先导优化（Lead Optimization）：

LLM 能够通过优化分子结构和蛋白质相互作用，帮助改进候选化合物的疗效和安全性。

5.辅助功能（Assistance）：

LLM 还可以提供信息检索和知识解释，帮助研究人员快速获取所需信息，提升药物开发的效率。

大语言模型在临床试验中的作用

图示：临床试验。这张图表左侧展示了临床试验的不同阶段，右侧展示了大语言模型（LLM）在这些阶段中的应用。（来源：论文）

临床试验阶段

1.第一阶段（Phase 1）：

主要测试药物的安全性和最佳剂量水平。通常在 15 到 50 名健康志愿者中进行。

2.第二阶段（Phase 2）：

探索药物的有效性以及可能的副作用，参与人数通常少于 100 人。

3.第三阶段（Phase 3）：

将新治疗与现有治疗进行比较，验证新药物的效果，通常有超过 100 人参与。

4.第四阶段（Phase 4）：

药物获批后，评估其长期效果，通常有超过 1000 名参与者。

LLM 的应用领域

1.临床实践（Clinical Practice）：

2.患者结果（Patient Results）：

患者结果预测：根据现有数据预测患者治疗的效果。

3.辅助功能（Assistance）：

成熟度评估: 大语言模型在药物研发的应用

图示：下游任务中的 LLM 成熟度评估。这张图表展示了两种类型的大语言模型的应用成熟度：科学大语言模型（Specialized LMs）和一般大语言模型（General LMs），分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级：新生期、进展期、成熟期以及不适用（N/A)。（来源：论文）

不适用（Not Applicable）：

该类大语言模型（LLM）的应用不适合或与给定的下游任务无关。在这种情况下，LLM的范式不被认为是有效或相关的工具。

新生期（Nascent）：

该类大语言模型的范式已被初步应用于任务，通常是在计算机模拟环境（in silico）中，但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索，尚未经过现实场景中的测试。

进展期（Advanced）：

该类大语言模型的应用已经超越了理论，经过了实际场景中的实验验证。这些实验结果表明，LLM 在现实中可以在特定的任务中起到一定的作用，但可能还未广泛部署。

成熟期（Matured）：

该类大语言模型的应用已被集成到实际的工作环境中，如医院或制药公司，且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段，LLM 已被广泛使用，并产生了显著的实际成果。

理解疾病机制（Understanding Diseases Mechanism）

基因组分析（Genomics Analysis）、转录组分析（Transcriptomics Analysis）、蛋白质靶点分析（Protein-target Analysis）、疾病通路分析（Disease-pathway Analysis）：

药物发现（Drug Discovery)

化学实验（Chemistry Experiment）、计算机模拟（In-silico Simulation）、ADMET 预测（ADMET Prediction）、先导优化（Lead Optimization）：