医疗专利数据库

一种基于多元域异构图聚合学习的药物和靶标相

发布日期:2024-08-22 浏览次数:

本发明涉及生物信息处理领域,特别涉及一种基于多元域异构图聚合学习的药物和靶标相互作用预测方法。背景技术:1、针对特定疾病的药物开发正从“一药多病”模式转变为“一病一药”模式,人们开始强调药物选择性和疗效的最优化。但药物开发过程中由于靶标选择错误导致的失败案例屡见不鲜。高精度地识别药物-靶标相互作用(简称dti)预测可以大大缩小下游药物发现实验验证的候选药物搜索范围,也可以减少因临床试验失败造成的经济和时间损失。由于使用生物学实验鉴定药物-靶标相互作用耗时且昂贵,因此有必要使用计算方法来确定药物与靶标之间的潜在相互作用。2、近年来,人工智能与机器学习技术的发展,为预测药物与靶标的潜在交互提供了新的视角。随着医学数据的爆炸性增长和深度学习技术的进步,异质生物学数据为药物和靶标之间的关系建模提供了一个多角度的视角,但这些高维数据集由于其高维、复杂的结构和独特的类型,给研究者带来了巨大的挑战,此时使用传统计算方法在处理复杂数据方面面临挑战。3、由于图神经网络(graph neural network,gnn)在图分析中的优越性,基于gnn的方法被用于使用异构生物学数据预测药物-靶标相互作用,其特点在于利用药物、靶标、药物副作用和疾病等生物实体的多维度信息作为网络输入特征,将其进一步转化为一组深度学习模型可处理的特征矩阵,实现药物-靶标相互作用的预测。然而,这些方法只考虑了药物和靶标相关网络而忽略了跨网络融合的深层次语义关系。同时这些方法使用了大量冗余模块将节点类型和边类型等语义信息也嵌入到传播的消息中,使得每个训练周期中重复的邻居信息聚合带来了过多的复杂度和计算量,阻碍了模型获得更好的性能。技术实现思路1、为了解决上述技术问题,本发明提供一种算法高效、预测准确率高和鲁棒性强的基于多元域异构图聚合学习的药物和靶标相互作用预测方法。2、本发明解决上述问题的技术方案是:一种基于多元域异构图聚合学习的药物和靶标相互作用预测方法,包括以下步骤:3、1)计算药物或靶标的相似性信息得到初始特征矩阵;4、2)定义元路径以及元域图;5、3)利用药物-疾病已知关联、药物-副作用已知关联、靶标-疾病已知关联、药物-靶标已知关联、药物-药物相互作用、靶标-靶标相互作用以及步骤1)得到的初始特征矩阵构建异构图;6、4)使用一种轻量元路径级特征聚合器预先计算生物异构图中各邻居结点的元路径级信息聚合;7、5)采用特征投影步骤将不同维度的特征聚合向量转换为具有一致维度的特征向量;8、6)使用基于transformer的多元域图语义特征融合模块来聚合元域图级语义信息,并获得对比优化前的特征矩阵;9、7)采用对比学习进行特征优化,并获得最终的节点特征;10、8)将最终的节点特征输入到多层感知机来预测药物-靶标相互作用评分矩阵。上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤1)具体包括以下步骤:11、1-1)对于药物节点,使用rdkit软件工具计算每种药物的拓扑指纹,然后使用tanimoto方法计算药物之间的结构相似性,最终得到药物结构相似性矩阵其中d表示药物;12、1-2)对于靶标节点,使用基于其初级序列的smith-waterman分数计算两个靶标之间的序列相似性,最终得到靶标序列相似性矩阵其中t表示药物。13、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤2)的具体过程如下:14、2-1)定义元路径,元路径被定义为几种边类型的组合关系,设εi∈ε分别表示第i个节点类型和第i个边类型,i表示第i个节点,给定元路径一个元路径实例是一个节点序列,它遵循的定义:15、16、其中为起始节点,为的基于元路径的邻居之一,元路径实例表示以第1个节点类型开始到第l个节点类型结束的一条元路径,它描述了节点类型与之间的l-1阶复合邻居关系ε:17、ε=ε1∧ε2∧...∧εl-1          (2)18、其中∧则表示复合关系运算,εl-1表示第l-1条边的类型;19、2-2)定义元域图,给定一条元路径和一个具有边类型εl-1的节点其中表示节点类型、n表示这条元路径上的节点个数,表示第n个节点的类型,元域图表示由基于该元路径的领域、元路径上的中间节点和节点组成的有向图。20、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤3)包括以下步骤:21、3-1)收集关于药物和靶标相互作用预测研究中的数据集,包括708个药物,4192种副作用,5603种疾病和1512个靶标,以及药物-疾病已知关联矩阵药物-副作用已知关联矩阵靶标-疾病已知关联矩阵药物-靶标已知关联矩阵药物-药物相互作用矩阵和靶标-靶标相互作用矩阵其中d、t、s和i符号分别表示药物、靶标、副作用和疾病生物实体,d-i、d-s、t-i、d-t、d-d和t-t分别表示药物-疾病、药物-副作用、靶标-疾病、药物-靶标、药物-药物和靶标-靶标关联;22、3-2)利用深度图学习库(dgl库)来构建异构图最终异构图的关联矩阵可以定义为:23、24、其中,和分别表示和矩阵的转置;25、3-3)将药物的相似度矩阵以及靶标的相似度矩阵作为药物的化学结构特征和靶标的序列结构特征,异构图中药物和靶标的初始节点特征矩阵可以初始化为:26、27、其中是表述矩阵维度的常用符号,n(d)和n(t)分别表示药物和靶标的数量。28、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤4)的过程如下:29、4-1)采用轻量元路径级特征聚合器预先计算生物异构图中各邻居结点的元路径级信息聚合。以第i个药物节点为例,聚合过程可以表示为:30、31、其中d代表药物、表示第i个药物节点经过上述聚合过程之后的特征矩阵、表示第i个药物节点在元域图上进行信息聚合之后的特征矩阵、是根据所给定第i个药物节点的元域图集合φd生成的不同语义特征矩阵列表,是对应于元域图中的所有元路径实例集合,则代表中元路径实例的数量,是包含目标节点i和起始节点j的一个元路径实例,是在元路径上邻居节点特征向量xj的注意力权重。同理可得靶标的不同语义特征矩阵列表其中不同语义特征矩阵分别对应于靶标的不同元域图t表示靶标;32、4-2)利用邻接矩阵乘法进一步简化公式(5),并在元域图中加入可变长元路径实例增强局部节点特征聚合的感知域,设是一条l-1长的元路径,其中d表示药物、t1t2t3…tl-1表示元路径上的中间节点、tl-1表示第l-1个中间节点。以药物节点d为例,具体简化过程如下:33、34、其中表示药物节点d在元域图上进行上述简化聚合之后的特征矩阵,表示在元域图中的药物节点d和中间节点t1之间的邻接矩阵进行行归一化后的矩阵,d-t1、t1-t2和tl-1-d分别表示药物节点d-中间节点t1、中间节点t1-中间节点t2和中间节点tl-1-药物节点d,表示在元路径上药物邻居节点的特征聚合权重向量,其中是表述矩阵维度的常用符号,n(d)和n(t)分别表示药物和靶标的数量,⊙表示向量元素的乘积运算,表示所有药物节点的初始特征矩阵集合。同理可得靶标节点t在元域图中进行简化聚合之后的特征矩阵35、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤5)的过程如下:36、5-1)在后续进行聚合元域图级信息时,不同维度的特征嵌入向量可能会带来挑战。特征投影步骤将不同维度的特征聚合向量转换为具有一致维度的特征。其中对于元域图使用一个多层感知机(简称mlp)模块其中v表示异构图中的节点类型,多层感知块包含归一化层、非线性层和两个连续线性层之间的一个dropout层,以药物元域图的特征投影步骤为例,具体投影过程如下:37、38、其中表示药物节点d在元域图上进行公式(6)简化聚合之后的特征矩阵,表示在元域图上对特征矩阵·进行特征投影,表示药物节点d在元域图上进行特征投影之后的特征矩阵。与药物元域图的特征投影过程类似,也可以对靶标节点t的每个元域图进行特征投影,从而得到靶标的特征投影矩阵39、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤6)的过程如下:40、6-1)以药物节点为例,使用预定义的药物不同元域图列表和每个药物节点经过特征投影步骤后的语义向量集合其中n代表药物的元域图数量,基于transformer的多元域图语义特征融合模块学习每对语义向量之间的相互影响程度。多元域图语义特征融合的过程可以表示为:41、42、43、44、其中和分别代表药物(或靶标)的第i个、第j个和第r个元域图,将每个语义向量都映射一个查询向量一个关键向量和一个值向量相互注意力权重系数是查询向量与关键向量经过softmax归一化后的点积结果、和分别表示对和的转置、exp(·)表示以自然常数e为底的指数函数、表示向量与进行乘积运算、当前语义的输出向量是所有值向量加上剩余连接的加权和,分别是得到查询向量关键向量和值向量的可被训练的共享参数,θ也是所有药物元域图共享的可训练参数。最终将获得每个元域图的特征融合矩阵列表同理,对于靶标t的不同元域图列表其中m代表靶标t的元域图数量,采用同样的基于transformer的多元域图语义特征融合步骤,可以获得靶标t的每个元域图特征融合矩阵列表45、6-2)对每个元域图的特征融合矩阵列表进行加权求和并获得对比优化前的药物特征矩阵以及靶标特征矩阵过程如下:46、47、48、其中,表示计算元域图和元域图的特征融合矩阵和之间的可被训练的权重系数。49、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤7)的过程如下:50、7-1)将药物节点的特征矩阵和靶标节点的特征矩阵通过串联拼接形成一个新的特征矩阵后续将在该特征矩阵上进行特征优化与更新。在原始药物-靶标关联图(dtp网络)的基础上构造拓扑图和语义图在拓扑图中,如果两个药物-靶标对节点具有相同的药物或靶标指向这两个节点,则它们将被连接,从而构造出拓扑图邻接矩阵mp。对于语义图通过计算药物-靶标对节点间余弦相似度,然后将其排序,取药物-靶标对节点与其前k个最相似的节点进行连接,构造出语义图邻接矩阵ms。最后,分别使用两个图卷积神经网络(简称gcn)模块从拓扑图和语义图中学习增强视图的节点特征,并将其用于图对比学习监督优化特征,对比学习优化过程如下:51、52、53、其中i是单位矩阵,和分别表示在拓扑图和语义图中经过第l+1个卷积核所提取出来的特征矩阵,dp和ds分别是拓扑图邻接矩阵以及语义图邻接矩阵ms的度矩阵,且dp和ds的对角线都为1,表示对矩阵·进行正则化,是gcn模块中可被训练的权重矩阵,和分别是将特征矩阵从拓扑图和语义图中进行更新后的特征矩阵,relu(·)表示神经网络中的激活函数;54、7-2)利用infocne方法对负样本进行细分,将其归入不同的类别,并通过评估样本特征之间的相似度来计算损失,再利用infonce计算的对比损失来强化模型预测的一致性,并扩大正样本和负样本在特征空间中的区分度。对比损失函数为:55、56、其中n是dtp网络中节点的数量,zi是拓扑图中节点i在语义图中的所有正样本的集合,exp(·)表示以自然常数e为底的指数函数,s(·,·)表示计算余弦相似度的函数,τ表示可调节的标量参数,和分别表示节点i、j和i′在拓扑图和语义图中经过gcn模块所提取出来的特征矩阵。57、上述基于多元域异构图聚合学习的药物和靶标相互作用预测方法,所述步骤8)的过程如下:58、8-1)最终将和输入到多层感知机(简称mlp)中,利用mlp学习药物和靶标节点之间的特征交互得到相互作用预测得分矩阵mlp学习预测过程如下:59、60、其中⊙表示hadamard积,w,w2…wl和ε1,ε2,…εl都表示为需要训练的参数矩阵,表示药物d与靶标t的相互作用预测得分;61、8-2)使用数据标签优化模型性能,并采用交叉熵损失函数来计算分类损失。交叉熵损失函数定义如下:62、63、其中n是dtp网络中节点的数量,yi表示样本i的标签,表示样本i被预测的关联概率,(d,t)表示药物-靶标对样本。64、最终方法训练的损失函数由三部分组成,定义如下:65、66、其中是对比损失函数,是使用交叉熵损失函数计算出的分类损失。λ是介于0和1之间的超参数,λ表示用于平衡对比损失和分类损失之间的比值,表示对所有可训练的模型参数的l2正则化,l2正则化的参数矩阵为θ,以防止模型过拟合。67、本发明的有益效果在于:68、本发明能够利用简单高效的训练过程对复杂的生物实体相互关系进行建模,引入轻量元路径级特征聚合器,解决了每个训练周期中重复的邻居信息聚合带来了过多的复杂度和计算量问题,基于transformer的多元域图语义特征融合模块通过跨多元域图融合深层次语义关系和获取元域图间的高阶关联来提升方法的泛化性能,使用注意力机制增强方法的可解释性,最后采用对比学习增强方法的鲁棒性。本发明具有较高的准确性和稳健性,在药物设计与研发和智慧医疗等领域具有一定的市场价值。