共计 1967 个字符,预计需要花费 5 分钟才能阅读完成。
近期,美国西北大学(Northwestern University)生物物理学家开发了一种新的计算工具,用于识别糖尿病、癌症和哮喘等复杂疾病背后的基因组合。
与单基因疾病不同,这些疾病受多个基因共同作用的网络影响。然而,可以探索的基因组合数量极其庞大,这使得研究人员难以确定导致疾病的准确基因组合。
新方法利用生成式人工智能(AI)模型,放大有限的基因表达数据,使研究人员能够解析有引起复杂性状的基因活动模式。这些信息有望带来新的、更有效的多基因疾病治疗方法。
该研究以「Generative prediction of causal gene sets responsible for complex traits」为题,于 2025 年 6 月 12 日发布在《PNAS》。
「许多疾病都是由多个基因组合决定的,而不仅仅是一个基因。」该研究的通讯作者 Adilson Motter 教授说,「你可以把癌症之类的疾病比作飞机失事。在大多数情况下,飞机坠毁需要发生多次故障,而不同的故障组合可能会导致类似的结果。这使得查明原因变得复杂。我们的模型通过识别关键因素及其共同影响来帮助简化问题。」
几十年来,科学家一直在努力揭示人类复杂特征和疾病的遗传基础。即使是身高、智力和头发颜色等非疾病特征也依赖于多个基因的组合表达。
现有的方法,例如全基因组关联研究,试图找到与某一性状相关的单个基因,但它们缺乏检测基因群体集体效应的统计能力。
「人类基因组计划表明,我们的基因数量仅为单细胞细菌的六倍。」Motter 说道,「但人类比细菌复杂得多,单凭基因数量无法解释这一点。这说明了多基因关系的普遍性,以及基因之间的相互作用必然与复杂生命的产生有关。」
当然,「识别单个基因仍然很有价值。」论文的作者之一 Thomas Wytock 补充道,「但只有极小一部分可观察到的性状或表型可以用单个基因的变化来解释。相反,我们知道的大部分表型是多个基因共同作用的结果。同时,多个基因控制则增大了引起性状改变的可能性。」调控环节越多,可变的概率也就越大,形成的表型也就更加多样化。
这会导致基因型-表型映射的可能性激增。为了帮助弥合基因组成(基因型)和可观察性状(表型)之间长期存在的知识差距,研究团队开发了一种将机器学习与优化相结合的复杂方法。
图示:新方法示意图。(来源:论文)
该模型被称为 transcriptome-wide conditional variational autoencoder(TWAVE),它包括一个基于人类转录数据训练的变分自编码器,并将其整合到一个优化框架中。
给定一个性状表型,TWAVE 会生成表达谱,然后它通过识别独立变化的广义通路(特征基因)来对其进行降维。接着,它进行约束优化,从而找到致病基因集,这些基因扰动的测量转录组响应能够最好地解释性状表型差异。
总之,它可以模拟疾病和健康状态,从而找到「基因表达变化」与「表型变化」之间的关联。
图示:针对炎症性肠病特征提出的 TWAVE 构建和验证。(来源:论文)
「我们关注的不是基因序列,而是基因表达。」Wytock 解释道,「我们利用临床试验数据训练模型,因此我们知道哪些表达谱代表健康或患病。对于少数基因,我们也有实验数据可以告诉我们网络在基因开启或关闭时的反应,我们可以将这些数据与表达数据进行匹配,从而找到与疾病相关的基因。」
关注基因表达有多重好处。
首先,它绕过了患者的隐私问题。基因的原始数据——一个人真实的 DNA 序列——本质上是个人独有的,它提供了高度个性化的健康蓝图、遗传倾向和家族关系。另一方面,而基因的表达数据则更像是细胞活动的动态快照。
其次,基因表达数据隐含地考虑了环境因素,这些因素可以「上调」或「下调」基因表达,从而执行各种功能。
「环境因素可能不会影响 DNA,但它们肯定会影响基因表达。」Motter 说,「因此,我们的模型的优势在于可以间接地考虑环境因素。」
图示:将复杂性状表型归因于一组基因。(来源:论文)
为了验证 TWAVE 的有效性,该团队在几种复杂疾病(例如,过敏性哮喘、癌症、糖尿病、炎症性肠病)中对其进行了测试。该方法成功识别出导致这些疾病的基因,并发现其中一些基因被当前的方法所遗漏了。
TWAVE 还揭示了不同的基因组合可以在不同的人群中导致同一种复杂疾病。这一发现表明,可以根据患者特定的疾病遗传驱动因素制定个性化治疗方案。
「同一种疾病在两个不同的个体身上可能表现相似。」Motter 说,「但原则上,由于遗传、环境和生活方式的差异,每个人可能都涉及一组不同的基因。这些信息可以指导个性化治疗。」
论文链接:https://www.pnas.org/doi/10.1073/pnas.2415071122