基于多模态数据融合的基因表达水平预测方法
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明属于生物信息学中的基因组学领域,具体涉及一种基于多模态数据融合的基因表达水平预测方法。、基因表达是生物体内一个至关重要的生物学过程,它涉及从dna序列转录成mrna,接着翻译为蛋白质。基因表达水平能够展示基因在特定环境条件下的活跃程度,因而在解读生物体的生理和病理状态方面具有举足轻重... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明属于生物信息学中的基因组学领域,具体涉及一种基于多模态数据融合的基因表达水平预测方法。背景技术:1、基因表达是生物体内一个至关重要的生物学过程,它涉及从dna序列转录成mrna,接着翻译为蛋白质。基因表达水平能够展示基因在特定环境条件下的活跃程度,因而在解读生物体的生理和病理状态方面具有举足轻重的作用。2、预测基因表达水平是一项颇具挑战性的任务,因为基因表达受到诸多因素的综合作用,如基因序列、表观遗传修饰、转录因子结合和微环境条件等。然而,众多研究已经证实,仅从基因序列本身就可以观察到与基因表达水平之间的紧密关联。在这些研究中,基因序列中的启动子和增强子对确定基因表达水平起到了关键性的作用。3、深度学习技术,尤其是卷积神经网络(cnn)和transformer,由于其强大的特征学习和非线性映射能力,为基因表达水平的预测提供了新的可能性。深度学习模型可以自动从大规模的数据中学习有用的特征,适应复杂的基因表达调控网络,更准确地预测基因表达水平。当前已有许多组织或个人已经发布了许多有关基因序列、表达水平的数据,这为使用深度学习预测基因表达水平奠定了数据基础。近年来,已有一些研究使用卷积神经网络和transformer来预测基因表达水平,但他们都欠考虑了基因表达水平影响因素之间的相互作用。技术实现思路1、为了克服以上技术问题,本发明提供了一种基于多模态数据融合的基因表达水平预测方法,融合处理多模态数据,协同预测基因表达水平。本发明的技术方案如下:2、一种基于多模态数据融合的基因表达水平预测方法,包括以下步骤:3、1)数据预处理及编码。将不同模态的数据编码为相似的数据格式,使其能够适配后续的融合过程,不同模态的数据主要包括基因启动子附近的基因序列、基因的半衰期和基因与转录因子的作用关系。4、2)多模态数据融合。对编码后的多模态数据通过基于深度的方法将多种数据进行数据融合处理,寻找多模态数据之间的相互作用,将多种数据融合为一个总的特征表示,获得更加全面的基因表达水平特征表示。5、3)实验评估。将数据集分割为训练和测试两部分,针对上述的数据预处理、编码方式和多模态数据融合方法,建立多种测试用例,在训练集上进行模型的训练,将训练后得到的模型在测试集上进行测试,寻找最优的编码方式、融合模型的超参数。6、进一步的,所述数据编码阶段不同模态的数据使用不同的编码方法。对于基因的半衰期数据,首先将其进行归一化,然后使用卷积核大小为1的卷积操作对半衰期数据进行维度变换,以统一数据的形状。对于转录因子数据,首先使用[0,1]矩阵表示转录因子与基因之间的作用关系,然后同样使用卷积操作对[0,1]矩阵进行维度变换。对于基因序列数据,有两种编码方式可供选择:基于bert的基因序列编码方式和基于卷积的基因序列编码方式。各种数据经过编码之后,即可拥有相似的形状格式,可进入到下一阶段更进一步处理。7、进一步的,所述针对基因序列的编码方式主要包括两种:8、1)基于bert的基因序列编码方法。首先将长序列分割为多个短序列,使用4-mer方法对每个短序列进行编码,将得到的短文本序列输入到bert中,获取每个短序列的特征向量,最后将每个短序列的特征向量进行拼接,得到整体基因序列的特征表示。9、2)基于卷积的基因序列编码方法。该方法同样首先将长序列分割为多个短序列,之后对序列进行one-hot编码,将编码后的短序列进行堆叠,使用(n x 1)的卷积核进行卷积,即只在每个短序列维度上进行卷积,不在不同短序列之间进行卷积。经过多次卷积之后即可获得整体基因序列的特征表示。10、进一步的,所述多模态数据融合部分包括如下步骤:11、1)针对每个不同模态的数据添加一个不同的token type embedding,以此来区分数据的模态。12、2)将得到的不同模态的数据进行堆叠,然后输入到transformer encoder模块,利用其中的注意力机制来寻找不同模态之间的相互作用关系,最终获得一个全面的特征表示。13、进一步的,所述实验评估部分主要包括以下方面:14、1)融合策略的选择。本模型适用中期融合策略与晚期融合策略,在中期融合策略中,不同模态的数据将经过一个transformer encoder模块进行数据融合,然后将融合后的特征表示输入到决策层中,获取最终的预测值。在晚期融合中,通过不同模态的数据分别获得其各自的预测值,然后将多个预测值进行平均或再输入到一个决策层中得到最终的预测值。15、2)基因序列的截取。本模型使用的基因序列位于基因启动子的附近,对于启动子上游序列和下游序列的选择可以对称可以不对称,序列的可选择范围为上游10000bp-下游10000bp。16、本发明的有益效果如下:17、针对长的启动子序列编码问题提出了两种编码方案,其中,基于bert的编码方案与word2vec只考虑上下文中的局部信息不同,bert可以理解整个句子或文本段的上下文,因此更能理解词语之间的关系。此外,bert在应用到不同的下游任务上时可以进行微调,而不必重新设计和训练不同的模型。基于卷积的编码方案在减少了参数量的同时依然获得了不错的性能。这两种方案都可以较好地将基因启动子序列中的信息提取出来。18、本发明可以从基因启动子序列中提取有效特征并联合基因的转录前调控信息和转录后调控信息来协同预测基因的表达水平,达到更高的预测精准度。技术特征:1.基于多模态数据融合的基因表达水平预测方法,其特征在于,包括以下步骤:2.根据权利要求1所述的基于多模态数据融合的基因表达水平预测方法,其特征在于:不同模态的数据使用不同的编码方法。对于基因的半衰期数据,首先将其进行归一化,然后使用卷积核大小为1的卷积操作对半衰期数据进行维度变换,以统一数据的形状。对于转录因子数据,首先使用[0,1]矩阵表示转录因子与基因之间的作用关系,然后同样使用卷积操作对[0,1]矩阵进行维度变换。对于基因序列数据,有两种编码方式可供选择:基于bert的基因序列编码方式和基于卷积的基因序列编码方式。各种数据经过编码之后,即可拥有相似的形状格式,可进入到下一阶段更进一步处理。3.根据权利要求2所述的基于多模态数据融合的基因表达水平预测方法,其特征在于:针对基因序列的编码方式主要包括两种:4.根据权利要求1所述的基于多模态数据融合的基因表达水平预测方法,其特征在于:多模态数据融合部分包括如下步骤:5.根据权利要求1所述的基于多模态数据融合的基因表达水平预测方法,其特征在于:实验评估部分主要包括以下方面:技术总结本发明涉及基因表达水平的预测方法,尤其是一种基于多模态数据融合的基因表达水平预测方法,适用于生物信息学和基因组学领域。包括:1)使用多种数据预处理和编码技术,将基因序列、基因半衰期、以及与转录因子的作用关系转换为统一格式的数据;2)通过深度学习技术对多模态数据进行融合处理,以提取和综合各种生物标记物的交互信息,形成全面的基因表达特征;3)在多模态数据融合后,使用所获得的全面的基因表达特征预测基因表达水平;4)通过测试和验证,细化和优化模型参数,提升预测准确性。通过这种方法,能有效从复杂的基因数据中挖掘有价值的信息,为生物医学研究提供精确的基因表达水平预测工具。技术研发人员:宋弢,潘志义,王珣受保护的技术使用者:中国石油大学(华东)技术研发日:技术公布日:2024/8/15