一种DNA序列上的表观遗传修饰信号预测方法_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

一种DNA序列上的表观遗传修饰信号预测方法

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


一种DNA序列上的表观遗传修饰信号预测方法
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明涉及生物信息处理领域,特别涉及一种dna序列上的表观遗传修饰信号预测方法。、-羟甲基胞嘧啶(-hydroxymethylcytosine, hmc)是dna甲基化中常见的氧化形式,稳定存在于生物基因组中,对基因表达和细胞过程起着重要的调节作用。在实现对hmc的单碱基分辨率无偏定量方面...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明涉及生物信息处理领域,特别涉及一种dna序列上的表观遗传修饰信号预测方法。背景技术:1、5-羟甲基胞嘧啶(5-hydroxymethylcytosine, 5hmc)是dna甲基化中常见的氧化形式,稳定存在于生物基因组中,对基因表达和细胞过程起着重要的调节作用。在实现对5hmc的单碱基分辨率无偏定量方面,通常通过化学或生物酶方法将其转化后进行高通量测序,例如oxbs-seq和caps测序。实验要求细致处理生物样本和检测技术,因此提出了基于机器学习的预测算法。2、2020年提出了deeph&m算法,利用限制性内切酶切割携带5hmc修饰的dna片段,经过抗体富集测序后,结合dna序列,利用深度学习算法实现单碱基分辨率下5hmc修饰水平的预测。deeph&m主要由三个模块构成:cpg模块接受基因组和甲基化特征输入,dna模块利用卷积神经网络处理原始dna序列数据,联合模块结合cpg和dna模块的输出,同时预测5hmc和5mc。 该方法的cpg模块依赖的特征包括medip-seq、mre-seq和hmc-seal等,同时依赖三种生物检测技术,且使用3个模块解决一个复杂的任务,显而易见的弊端是:1,各个步骤的训练目标不一致,与宏观目标存在偏差,训练出来的模型很难达到最优的结果;2,每一个步骤都有误差,前一个步骤的误差会影响到下一步骤训练的结果,误差的积累最终导致最终结果很差。3、2024年引入了一种名为deep5hmc的新型多模态深度学习框架,通过整合dna序列信息和组蛋白修饰信号,实现对组织/细胞类型特异性全基因组5hmc修饰的预测。然而,deep5hmc只能对1000bp的区域层面的修饰水平进行预测,而无法实现单碱基分辨率的预测。技术实现思路1、本发明的目的在于实现全基因组单碱基分辨率的5hmc修饰水平的准确预测,本研究提出了一种基于wgbs的创新5hmc修饰预测算法。该算法无需依赖额外的组蛋白修饰或5hmc富集数据,仅通过利用常见且易获取的wgbs数据,结合dna序列信息,并采用卷积神经网络模型,实现了对5hmc的修饰水平的准确预测。2、本发明的目的是通过以下技术方案来实现的:3、一种dna序列上的表观遗传修饰信号预测方法,所述方法步骤包括:4、s1.数据准备:对wgbs和caps数据分别计算5mc和5hmc水平每个cpg位点上下游的dna甲基化水平和5hmc修饰水平,并根据计算的结果进行分类,分别构建训练集和测试集,后者作为模型的目标数据,并根据染色体编号进行分类,分别构建训练集和测试集;5、s2.特征表示:根据训练集和测试集中的数据特征进行表示,以构建训练所需的特征输入和输出合并训练集和测试集中的上下游50bp的dna序列和上下游50个cpg位点的甲基化水平数据特征进行表示,以构建训练所需的特征输入矩阵;6、s3.模型训练和调优:使用卷积神经网络模型和均方误差损失函数进行训练和参数调优,用于实现对5hmc的修饰水平的预测。7、进一步的,所述步骤s1中,从caps数据中提取cpg上的5hmc修饰水平作为目标数据,以染色体编号为1和2的位点作为测试集,染色体编号为3和4的位点作为训练集。8、进一步的,在所述步骤s2中,从wgbs数据中,提取每个cpg上、下游50个cpg的dna甲基化水平,提取每个cpg位点上下游50bp的dna序列,并使用one-hot编码方式对dna序列进行编码,形成4×100的数据矩阵,合并wgbs中提取的dna甲基化水平,形成5×100的数据矩阵,其公式如下:9、10、进一步的,在所述步骤s3中,将特征数据矩阵作为卷积神经网络(cnn)模型的输入,5hmc修饰水平作为输出,训练cnn模型以学习特征和5hmc之间的关系,根据预测准确性调整模型参数,训练过程中模型使用的损失函数为mse,计算方法如下:11、12、其中n为样本的数量,为第i个样本的真实5hmc修饰水平,为第i个样本的模型预测5hmc修饰水平。13、进一步的,在所述步骤s3中,再使用训练好的cnn模型对测试集数据进行预测,评估模型对5hmc修饰水平的预测能力。14、本发明的有益效果是:15、(1)本发明提出了基于cnn模型对检测难度高的5hmc信号实现了全基因组单碱基分辨率的预测,精度比区间长度上的5hmc水平预测更高;16、(2)通过将dna序列和5mc特征进行整合,可以融合dna甲基化及序列特征,相比仅使用dna序列或仅依赖生物实验检测的组蛋白等模型,扩展了模型的信息输入,使模型更全面且准确;17、(3)依赖于wgbs测定的dna甲基化信号,不需要其他组学数据的支持,因此降低了对生物检测数据的依赖性,使预测模型更具可操作性;18、(4)采用了cnn模型,利用其局部感知优势,本发明能够高效地提取dna序列特征,特别是针对5hmc修饰,从而提高了预测精度和效率。技术特征:1.一种dna序列上的表观遗传修饰信号预测方法,其特征在于,所述方法步骤包括:2.根据权利要求1所述的一种dna序列上的表观遗传修饰信号预测方法,其特征在于,所述步骤s1中,从caps数据中提取cpg上的5hmc修饰水平作为目标数据,以染色体编号为1和2的位点作为测试集,染色体编号为3和4的位点作为训练集。3.根据权利要求1所述的一种dna序列上的表观遗传修饰信号预测方法,其特征在于,在所述步骤s2中,从wgbs数据中,提取每个cpg上、下游50个cpg的dna甲基化水平,提取每个cpg位点上下游50bp的dna序列,并使用one-hot编码方式对dna序列进行编码,形成4×100的数据矩阵,合并wgbs中提取的dna甲基化水平,形成5×100的数据矩阵,其公式如下:4.根据权利要求1所述的一种dna序列上的表观遗传修饰信号预测方法,其特征在于在所述步骤s3中,将特征数据矩阵输入卷积神经网络模型,5hmc修饰水平作为输出,训练cnn模型以学习特征和5hmc之间的关系,根据预测准确性调整模型参数,训练过程中模型使用的损失函数为mse,计算方法为:5.根据权利要求1所述的一种dna序列上的表观遗传修饰信号预测方法,其特征在于在所述步骤s3中,使用训练好的cnn模型对测试集数据进行预测,评估模型对5hmc修饰水平的预测能力。技术总结本发明公开了一种DNA序列上的表观遗传修饰信号预测方法,涉及生物信息处理领域。该方法步骤包括:数据准备:对WGBS和CAPS数据分别计算CpG位点上下游的5‑甲基胞嘧啶(5mC)修饰水平和5‑羟甲基胞嘧啶(5hmC)修饰水平,作为模型的目标数据,并根据染色体编号进行分类,分别构建训练集和测试集;特征表示:合并训练集和测试集中的上下游50bp的DNA序列和上下游50个CpG位点的甲基化水平数据特征进行表示,以构建训练所需的特征输入矩阵;模型训练和调优:使用卷积神经网络模型和均方误差损失函数进行训练和参数调优,用于实现对5hmC的修饰水平的预测。本方法仅需WGBS测定的DNA甲基化信号,降低了对生物检测数据的依赖性,使预测模型更具可操作性;提高了预测精度和效率。技术研发人员:罗锡梅,李艳超,王彦苏,邹权受保护的技术使用者:电子科技大学技术研发日:技术公布日:2024/8/16

一种DNA序列上的表观遗传修饰信号预测方法