生成394,760种蛋白质表征,哈佛团队开发AI模型,全面理解蛋白质上下文

207次阅读
一条评论

共计 1307 个字符,预计需要花费 4 分钟才能阅读完成。

PINNACLE 在一组集成的情境感知蛋白质相互作用网络(PPI)上进行训练,并辅以捕捉细胞相互作用和组织层次的网络,从而生成情境化的蛋白质表征,这些表征针对蛋白质编码基因被激活的细胞类型进行定制。

与上下文无关的模型不同,PINNACLE 为每种蛋白质生成多种表示,每种表示取决于其特定的细胞类型上下文。此外,PINNACLE 还生成细胞类型上下文的表示和组织层次的表示。这种方法确保了对蛋白质相互作用网络的多方面理解,同时考虑到蛋白质作用的无数背景。

给定多尺度模型输入,PINNACLE 通过优化统一的潜在表示空间来学习蛋白质、细胞类型和组织的拓扑结构。PINNACLE 将不同的上下文特定数据集成到一个上下文感知模型中,并在蛋白质、细胞类型和组织级数据之间传递知识,以使表示具有上下文相关性。

为了将细胞和组织组织注入这个嵌入空间,PINNACLE 采用蛋白质、细胞类型和组织水平的注意力以及各自的目标函数。

从概念上讲,物理上相互作用的蛋白质对(即通过输入网络中的边缘连接)是紧密嵌入的。类似地,蛋白质嵌入在它们各自的细胞类型环境附近,同时与不相关的细胞类型保持相当大的距离。

这确保了相同细胞类型环境中的相互作用蛋白质位于嵌入空间的近端,但与其他细胞类型环境中的蛋白质分开。这种方法产生的嵌入空间可以准确表示蛋白质、细胞类型和组织之间错综复杂的关系。

PINNACLE 使用一系列针对每个特定节点和边缘类型量身定制的注意力机制在蛋白质、细胞类型和组织之间传播图神经网络信息。

生成394,760种蛋白质表征,哈佛团队开发AI模型,全面理解蛋白质上下文

图示:PINNACLE 蛋白质嵌入区域的富集。(来源:论文)

蛋白质级预训练任务考虑对蛋白质相互作用进行自监督链接预测和对蛋白质节点进行细胞类型分类。这些任务使 PINNACLE 能够塑造一个嵌入空间,该空间封装了上下文感知蛋白质相互作用网络的拓扑结构和蛋白质的细胞类型身份。

PINNACLE 的细胞类型和组织特定预训练任务完全依赖于自监督链接预测,从而促进细胞和组织组织的学习。细胞类型和组织的拓扑结构通过注意力桥接机制传递给蛋白质表示,有效地将组织和细胞组织强化到蛋白质表示上。

PINNACLE 的情境化蛋白质表征可捕捉情境感知蛋白质相互作用网络的结构。这些情境化蛋白质表征在潜在空间中的区域排列反映了元图所代表的细胞和组织组织。这将导致在统一的细胞类型和组织特定框架内对蛋白质进行全面且特定于上下文的表示。

通过 PINNACLE 生成的 394,760 个情境化蛋白质表示,其中每个蛋白质表示都具有细胞类型特异性,研究人员证明了 PINNACLE 能够将蛋白质相互作用与 156 种细胞类型情境的底层蛋白质编码基因转录组相结合。

PINNACLE 的嵌入空间反映了细胞和组织结构,从而实现了组织层次结构的零样本检索。预训练的蛋白质表征可以适应下游任务:增强基于 3D 结构的表征以解决免疫肿瘤学蛋白质相互作用,并研究药物对不同细胞类型的影响。

PINNACLE 在指定类风湿性关节炎和炎症性肠病的治疗靶点方面优于最先进的模型,并且比无上下文模型具有更高的预测能力,可以精确定位细胞类型上下文。PINNACLE 能够根据其运行环境调整输出,为生物学中大规模上下文特定预测铺平了道路。

论文链接:

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2024-07-26发表,共计1307字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(一条评论)