共计 1632 个字符,预计需要花费 5 分钟才能阅读完成。
编辑丨%
生病吃药的时候,常会在说明书上看到对此药副作用的说明。对副作用的识别研究有助于药物开发过程中风险的降低,在优化联合治疗方案中也有着重要地位。
早期的药物副作用识别研究主要集中在预测药物与副作用之间的关联,近年来才逐渐转向药物副作用频率的预测。传统方法多将副作用频率预测视为回归问题,导致离散标签的边界模糊,且易受单模态数据限制。
中南大学研究团队针对这些问题,提出了多源相似性融合模型(MSSF),通过重构预测任务为多分类问题,在基准数据集上实现 72.46% 的准确率,较次优模型 HMMF 提升 15.9%,为该领域提供了突破性解决方案。
该研究以「A deep learning-based method for predicting the frequency classes of drug side effects based on multi-source similarity fusion」为题,发布在第 41 卷,第 6 期的《Bioinformatics》。
论文链接:https://academic.oup.com/bioinformatics/article/41/6/btaf319/8151546
多模态数据到贝叶斯推理
MSSF 的具体研究内容可以如此概括:基于收集到的药物和副作用的多模态数据生成药物相似矩阵与副作用相似矩阵,生成对应的特征向量及三种组合向量。
这三个组合向量经三模块处理 ——EN-con 自编码器通过特征拼接捕捉显式关联,EN-add 自编码器以加和操作挖掘隐含交互,CNN-im 卷积网络解析空间特征 —— 实现多维度信息的深度融合。
图 1:MSSF 概述。
为了降低过拟合的风险并提高泛化性,团队在模型中引入了 BVI 模块。产生定点估计的确定性模型不同,BVI 提供了一个概率框架,用于通过近似模型参数的后验分布来学习潜在表示。
在药物安全等高风险生物医学应用中,这种不确定性意识对于下游决策和互作性至关重要。
此外,团队在实验中还引进了了基于 SIDER 数据库构建的 Zhao 的数据集进行独立测试,然后从基准数据集中收集这些药物的副作用频率类别,构建训练数据集。
表 1:使用 10 倍交叉验证在基准数据集上不同方法的性能比较。
为了评估 MSSF 预测新药副作用频率类别的能力,团队设计了一个冷启动实验和一个独立测试,将所有药物分为 10 个部分,并进行 10 倍交叉验证实验。
在交叉验证的结果图表中,MSSF 在基准数据集的 ACC 为 0.7246,较次优模型 HMMF(0.6254)提升 15.9%。
在冷启动实验中,当测试集包含新药物时,MSSF 的准确率达 56.01%,较 HMMF(42.82%)提升 13.19%;独立测试基于 SIDER 数据库验证,准确率仍保持 56.06%,充分验证了模型的泛化能力。
表 2:冷启动条件下不同方法的性能比较。
此外,MSSF 计算了 10 种不同的药物相似性和 4 种不同的副作用相似性,团队在每次实验中依次排除一个相似性特性,并根据十倍交叉验证重新训练模型。最差的结果显示准确率仅比使用所有相似性特征的结果低 1.2%,这表明 MSSF 仍然可以在相似性特征较少的情况下保持良好的性能。
小结
在这项工作中,研究团队将频率预测任务从回归问题重新表述为多类分类问题,使建模方法与基准数据集中频率标签的离散性质保持一致。
MSSF 模型通过三种互补的特征提取策略整合了各种类型的药物和副作用信息。这些特征使用多头自注意力机制进行融合,使模型能够捕获复杂的跨特征依赖关系。实验表明,MSSF 在各种评估指标上明显优于现有的最先进方法,尤其是在以前看不到药物副作用对的冷启动场景中。
未来的工作里,团队将探索整合其他数据源和改进的泛化策略,可能包括解决数据稀缺问题的小样本学习技术,以及集成其他模态以增强特征表示和泛化能力。
模型开源:https://github.com/dingxlcse/MSSF.git