基于符号信息传播的微生物-疾病符号关联预测方_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

基于符号信息传播的微生物-疾病符号关联预测方

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


基于符号信息传播的微生物-疾病符号关联预测方
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明属于电子数据处理,更进一步涉及医学电子数据处理中一种基于符号信息传播的微生物-疾病符号关联预测方法。本发明可用于发现生物标志物。、当前,大量的微生物群落与人类宿主相互作用密切,微生物群落的生态失调或失衡甚至会导致人类疾病。随着疾病-微生物符号关联数据的不断积累,对于疾病-微生物符号关...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明属于电子数据处理,更进一步涉及医学电子数据处理中一种基于符号信息传播的微生物-疾病符号关联预测方法。本发明可用于发现生物标志物。背景技术:1、当前,大量的微生物群落与人类宿主相互作用密切,微生物群落的生态失调或失衡甚至会导致人类疾病。随着疾病-微生物符号关联数据的不断积累,对于疾病-微生物符号关联预测任务向数据驱动转变,针对疾病-微生物符号关联数据应用机器学习或深度学习方法来挖掘新的疾病-微生物符号关联可以进一步理解潜在的疾病机制。到目前为止,通过机器学习的方法来进行微生物-疾病关联预测的相关方法可以分为四类:基于网络的方法、基于矩阵分解的方法、基于正则化的方法和基于神经网络的方法,这几类方法并不互相排斥。基于网络的方法主要通过网络的拓扑结构信息来衡量节点的重要程度。基于矩阵分解的方法将输入的关联矩阵分解为两个低维矩阵,并能够保留一定的信息来重构原始输入矩阵。基于正则化的方法将关联预测任务转化为最小二乘分类任务,并采取不同的正则化手段来约束模型从而避免模型过拟合。基于神经网络的方法通常采用编码器-解码器结构来进行关联预测,使用图卷积网络或者图注意力网络作为基编码器得到潜在特征表示,并通过解码器解码潜在特征表示来重构原始的关联矩阵。对于基于神经网络的方法,无需进行过多的特征工程,通过端到端的学习,模型能够隐式地构建表征能力强的交叉特征,可以预测更可能的潜在微生物-疾病关联。2、long等人在其发表的论文“predicting human microbe–disease associationsvia graph attention networks with inductive matrix completion”(briefings inbioinformatics 2022年)中公开了一种具有归纳矩阵补全的图注意力网络的微生物-疾病关联预测方法。该方法的实现方案是,使用微生物-疾病关联数据集,计算多种微生物相似性和疾病相似性以及相似性融合,将相似性矩阵作为初始特征,对已知的微生物-疾病二分网络按照编码器-解码器的框架进行训练。该方法设计了两种神经元表征聚合层进行特征聚合,由多头跳跃连接的图注意力网络作为编码器进行潜在特征表示,将潜在特征表示输入基于归纳矩阵补全的解码器,完成对微生物-疾病二分网络的重构。该方法通过多头跳跃连接的图注意力网络捕捉了不同尺度的特征,并且以归纳矩阵补全的方式进行二分网络的重构。但是,该方法仍然存在的不足之处是,没有进一步考虑到数据扰动的问题,也即数据噪声和数据不完全的问题,这也是链路预测任务所固有的问题。此外,该方法仅仅完成了二分网络的重构,并未从构建有效的辅助任务入手来提高表征能力。仅仅使用图注意力网络作为编码器略显单薄,现有技术对潜在特征进行归纳矩阵补全将会导致解码时丢失一部分潜在特征的信息,也即解码器的能力不足,无法有效地利用学到的特征。3、随着疾病-微生物关联数据的不断积累,尽管疾病-微生物关联预测任务取得了可观的突破,但已有的研究对疾病-微生物关联数据的利用程度仍旧较低,尚未有研究对更细粒度的关联符号信息进行抽取,这无疑在数据利用层面上造成了极大的浪费,并且导致现有的工具无法全面地捕获疾病与微生物之间的数据与特征分布。因此,如何利用符号信息捕捉更全面、更真实的数据分布成为了一个新的挑战。其次,重复生物实验验证时的条件不完全一致,符号关联数据中同样存在相悖的疾病-微生物符号关联信息,如何对存在大量噪声关联数据进行建模仍是一个关键问题。最后,仅通过相似性融合的方式对存在偏差的相似性数据进行处理不足以完全解决这种偏差。技术实现思路1、本发明的目的在于针对上述现有技术的不足,提出一种基于符号信息传播的微生物-疾病符号关联预测方法,用于解决现有技术对微生物-疾病符号关联数据的利用程度较低、对噪声符号关联数据进行建模、相似性数据存在偏差的技术问题。2、实现本发明目的的思路是:本发明设计了一种新的符号信息传播策略来控制不同符号边连接的节点之间的差异性和一致性,对已知符号关联分布进行表示学习,得到疾病表征和微生物表征,可以有效的解决对微生物-疾病符号关联数据的利用程度较低这一技术问题。本发明采用了多尺度图变分自编码器来提高模型对噪声的鲁棒性,通过从拟合数据分布的角度入手,将噪声符号进行对抗,可以有效地解决对噪声符号关联数据进行建模这一技术问题。本发明在使用相似网络融合方法来对多种疾病相似性矩阵和微生物相似性矩阵进行融合的基础上,通过引入环境噪声对相似性数据加噪、重构符号关联矩阵来克服相似性数据的偏差,使模型训练时不会过度关注相似性数据固有的偏差,通过环境噪声来抵消这种偏差,可以有效地解决相似性数据存在偏差这一技术问题。3、本发明方法的步骤包含如下:4、步骤1,基于符号信息传播策略构建由编码器和解码器串联组成的多尺度图变分自编码器;5、步骤2,将高斯噪声融入疾病相似性矩阵和微生物相似性矩阵中,并连同微生物-疾病符号关联矩阵a输入到多尺度图变分自编码器进行训练,得到疾病表征矩阵和微生物表征矩阵;6、步骤3,生成训练集:7、将关联矩阵a中非0的元素选为正样本,从关联矩阵a中随机选取与正样本数量相同的元素值为0的元素为负样本,将正负样本的表征矩阵拼接后生成训练集;8、步骤4,构建每个目标类对应的微生物-疾病符号关联预测模型,每个模型均由p个cart回归树串行求和后组成,其中,p≥20;9、步骤5,训练微生物-疾病符号关联预测模型:10、将训练集中的正负样本输入到每个目标类对应的预测模型中进行训练,得到每个目标类训练好的微生物-疾病符号关联预测模型;11、步骤6,预测微生物与疾病的符号关联:12、将待预测的疾病和微生物对应的疾病表征矩阵和微生物表征矩阵输入到每个目标类训练好的微生物-疾病符号关联预测模型中,将所有模型输出结果中预测概率最大的符号关联,作为预测的微生物与疾病之间符号关联。13、本发明与现有技术相比具有以下优点:14、第一,由于本发明基于符号信息传播策略构建由编码器和解码器串联组成的多尺度图变分自编码器,来控制不同符号边连接的节点之间的差异性和一致性,克服了现有技术对微生物-疾病符号关联数据的利用程度较低的问题,使本发明具有充分利用符号关联数据的优点。15、第二,由于本发明采用了多尺度图变分自编码器来进行图表示学习,得到微生物表征矩阵和疾病表征矩阵,从分布的角度对有噪声符号关联数据进行建模,提高了模型对噪声符号关联数据的鲁棒性,克服了现有技术忽略了噪声符号关联数据进行建模带来的问题,使本发明具有对噪声符号关联数据高效建模的优点。16、第三,由于本发明将高斯噪声融入疾病相似性矩阵和微生物相似性矩阵中,对相似性矩阵引入环境噪声可以抵消相似性数据固有的偏差,克服了现有技术相似性数据存在偏差的不足,使本发明具有降低相似性数据偏差的优点。技术特征:1.一种基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,基于符号信息传播策略构建由编码器和解码器串联组成的多尺度图变分自编码器,在疾病相似性矩阵和微生物相似性矩阵中融入高斯噪声以消除相似性偏差的影响;该预测方法的步骤包括如下:2.根据权利要求1所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,步骤1中所述符号信息传播策略指的是,按照下式对不同符号关联连接的节点之间进行信息传播:3.根据权利要求1所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,步骤1中所述多尺度变分自编码器由第一单尺度signgcn层、第二单尺度signgcn层、多尺度signgcn层依次串联组成,其中,第一、第二单尺度signgcn提取初步特征,编码器中的激活函数均选取relu函数实现;将第一、第二signgcn层的输出维度分别设置为512、128,多尺度signgcn层的三个输出尺度分别设置为64、32、16;编码器中的dropout值均设置为0.5;4.根据权利要求1所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,步骤2中所述多尺度图变分自编码器进行训练指的是,输入融入高斯噪声后的疾病相似性矩阵、微生物相似性矩阵、微生物-疾病符号关联矩阵a,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数组成微生物表征矩阵和疾病表征矩阵。5.根据权利要求4所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,所述疾病相似性矩阵指的是,大小为m×m且元素值在区间0到1之内的矩阵,其中,m表示微生物-疾病关联矩阵a行的总数,m≥1500。6.根据权利要求4所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,所述微生物相似性矩阵指的是,大小为n×n且元素值在区间0到1之内的矩阵,其中,n表示微生物-疾病关联矩阵a列的总数,n≥200;所述高斯噪声指的是,大小为(m+n)×(m+n)且元素值服从标准正态高斯分布的噪声。7.根据权利要求4所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,所述损失函数l1如下:8.根据权利要求4所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,所述微生物-疾病符号关联矩阵a指的是,大小为m×n且第m行第n列元素amn的值为0、1或-1的微生物-疾病符号关联矩阵a,其中,m表示微生物-疾病符号关联矩阵中行的序号,m=1,2,...,m,m表示微生物-疾病符号关联矩阵a行的总数,m≥1500,n表示微生物-疾病关联矩阵中列的序号,n=1,2,...,n,n表示微生物-疾病符号关联矩阵a列的总数,n≥200,amn的值为0时表示第m行微生物和第n列疾病之间实际不存在关联,amn的值为1时表示第m行微生物和第n列疾病之间实际存在疾病状态下微生物数量增加的关联,amn的值为-1时表示第m行微生物和第n列疾病之间实际存在疾病状态下微生物数量减少的关联,a中非0元素数量为q,q≥5000。9.根据权利要求1所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,步骤3中所述正负样本的表征矩阵指的是,按照正负样本的行序号和列序号,分别抽取疾病表征矩阵对应的行和微生物表征矩阵的对应行,组成疾病-微生物特征表示向量,将所有表示向量进行拼接后组成的表征矩阵。10.根据权利要求1所述的基于符号信息传播的微生物-疾病符号关联预测方法,其特征在于,步骤6中所述训练微生物-疾病符号关联预测模型指的是,计算微生物-疾病符号关联预测模型每次迭代后损失函数l2的结果,使用拟牛顿法更新cart回归树的梯度,得到当前迭代优化后的一个cart回归树,通过串行求和所有的优化cart回归树更新目标类的微生物-疾病符号关联预测模型,直到达到指定迭代次数j时为止,j≥500;技术总结本发明提出了一种基于符号信息传播的微生物‑疾病符号关联预测方法,其实现步骤为:基于符号信息传播策略构建多尺度图变分自编码器;将高斯噪声融入疾病相似性矩阵和微生物相似性矩阵中,并连同微生物‑疾病符号关联矩阵=输入到多尺度图变分自编码器进行训练,得到疾病表征矩阵和微生物表征矩阵;构建每个目标类对应的微生物‑疾病符号关联预测模型;利用训练好的微生物‑疾病符号关联预测模型,预测微生物与疾病的符号关联。本发明具有充分利用符号关联数据、对噪声符号关联数据高效建模、降低相似性数据偏差的优点,可用于发现生物标志物。技术研发人员:鱼亮,祝焕,李朋勇受保护的技术使用者:西安电子科技大学技术研发日:技术公布日:2024/8/15

基于符号信息传播的微生物-疾病符号关联预测方