一种基于DNABERT微调的G-四链体预测方法
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明属于计算机生物学领域,具体涉及一种基于dnabert微调的g-四链体预测方法。、核酸 g-四链体 (g) 在许多细胞过程中发挥着至关重要的作用。由于其重要性,目前开发了多种预测g-四链体的方法。包括基于规则的方法,如quadparsers 算法;基于打分的方法如qgrs、pqsfin... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明属于计算机生物学领域,具体涉及一种基于dnabert微调的g-四链体预测方法。背景技术:1、核酸 g-四链体 (g4) 在许多细胞过程中发挥着至关重要的作用。由于其重要性,目前开发了多种预测g-四链体的方法。包括基于规则的方法,如quadparsers 算法;基于打分的方法如qgrs、pqsfinder和g4hunter等。基于规则和打分的方法是基于对已解析的g4结构的洞察,考虑了有限数量的结构。但是,这些结构可以描述 g4 构象的各种可能性的不完整图像,但无法适应可能偏离规范模式的情况。如果目标是通过计算来预测新的构象或序列,那么这种策略就难以准确适用。2、又如基于机器学习的方法quadron、g4boost和g4beacon等;基于深度学习的算法penguinn、g4detector、deepg4、g4mismatch和epig4nn等。机器学习和深度学习方法避免了预定义的基序限制,以提高对非规范 g4 的分析准确性,但现有算法在训练数据集的构建上不一致,有的利用体外测序数据作为正样本,有的是体外和体内测序交集作为正样本,数据集规模也较小,这些都限制了机器学习的优势发挥。3、自然语言处理(nlp)的算法发展迅速,但在g4预测的应用上相对滞后。现阶段深度学习预测方法模型的序列信息提取还是利用one-hot编码。传统的one-hot编码只是将序列符号化,不包含任何语义,无法捕获上下文信息。技术实现思路1、本发明的发明目的是提供一种基于dnabert微调的g-四链体预测方法,提高了对g-四链体的预测性能,同时还增强了模型的可解释性。2、为实现上述发明目的,本发明的技术方案如下:3、一种基于dnabert微调的g-四链体预测方法,包括:4、构建数据集:5、获取来自不同细胞系的序列数据,使用预测工具预测其中潜在的四链体形成序列pqs;6、将pqs与通过高通量测序技术得到的g4峰值进行交集处理;7、将与g4峰值有至少一个碱基对重叠的pqs定义为eg4作为正样本;8、根据得到的正样本构建负样本,利用gennullseqs 函数生成与正样本gc含量、长度和重复序列相匹配的负样本,得到由正样本和负样本构成的数据集;9、使用所述数据集对dnabert预训练模型进行微调:10、利用dnabert预训练模型的词表对数据集进行分词,将正样本和负样本转化为长度一致的标记化序列;11、所述dnabert预训练模型包括encoder block模块和多头感知机,将标记化序列直接提供给输入嵌入层进行微调。12、优选地,模型输入时采用正负样本交替的方式。13、基于 dnabert编码的预测模型能够更好地捕获 g4序列中的局部特性和全局特征。然而实际应用中现有的 dnabert 模型在特定任务上的预测结果差异较大,尽管dnabert 模型学习到了一些基础的序列特征和模式,在具体的下游任务比如基因调控元件识别、突变预测等中,难以捕捉该任务的特定特征和细节,无法实现g-四链体的精准预测。14、本发明利用迄今最大的内源g-四链体测序数据作为训练数据集,包含36个人类细胞系的g4 chip-seq和g4 cut&tag体内测序数据。通过建立正样本和负样本gc含量、长度和重复序列相匹配的数据集,进一步提升微调训练的效果;将标记化序列直接提供给输入嵌入层进行微调来提升模型捕捉特定特征和细节的能力,进而提升模型的预测性能。15、在上述的一种基于dnabert微调的g-四链体预测方法中,所述构建负样本包括,使用人类基因组数据包,调用 gennullseqs 函数,从指定的 bed 文件中随机提取正样本序列,并生成与其 gc 含量、长度和重复序列相匹配的负样本。16、本发明构建的负样本时,必须确保它们在 gc 含量、长度和重复序列特性上与正样本高度匹配。这种匹配过程可能会很耗时且复杂,特别是在需要生成大量负样本的情况下。某些序列可能难以找到合适的匹配,也增加了生成匹配负样本的难度。构建方式:使用r 语言中的 gkmsvm 包和bsgenome.hsapiens.ucsc.hg19.masked 基因组数据包。调用gennullseqs 函数,从指定的 bed 文件中提取正样本序列,并生成与其 gc 含量、长度和重复序列相匹配的负样本。通过在基因组中随机选取区域并进行筛选以匹配上述特性生成负样本。17、在上述的一种基于dnabert微调的g-四链体预测方法中,所述数据集中正负样本的数量差值小于4.5%。18、正负样本的数量应该大致相等,这样可以防止模型偏向于多数类。在分类任务中,如果正样本和负样本的数量差异过大,模型可能会倾向于预测多数类,影响了模型的预测精准率。19、在上述的一种基于dnabert微调的g-四链体预测方法中,所述encoder block模块包括输入嵌入层、encoder block层和最后隐藏层,所述encoder block层包括顺序执行的12个串联的encoder block。20、本发明12个 encoder block 是顺序执行的,第一个 encoder block 的输出成为第二个 block 的输入,第二个 block 的输出成为第三个block 的输入,如此类推,直到第12个 block。 encoder block 是串联连接的,一个 block 的输出直接作为下一个 block的输入。这由此创建了一个深层网络,使输入序列通过每一层逐步变换,从而让模型学习越来越抽象和高级的特征。21、在上述的一种基于dnabert微调的g-四链体预测方法中,所述encoder block层包括多头自注意力层,通过多头自注意力层的多头自注意力机制来捕获dna碱基的上下游信息m,公式如下,22、(1)23、其中:24、 (2)25、和,,是线性投影的学习参数,是,矩阵的列数,即向量维度,head值为下一个隐藏状态m,是每两个短序列间的注意力分数之和,multihead()将多个独立计算的head结果拼接起来,将多头自注意力层的输入和输出相加,残差连接后进行层归一化,对每一层的激活值进行归一化。26、在上述的一种基于dnabert微调的g-四链体预测方法中,所述的encoder block层还包括前馈网络,所述的前馈网络包括两层全连接层,第一层的激活函数为 relu,第二层不使用激活函数,对应的公式如下:27、 (3)28、其中 x表示前馈网络的输入,前馈网络最终得到的输出矩阵的维度与 x一致,将前馈网络的输入和输出相加后进行层归一化; 29、所述最后隐藏层状态的输出作为最终序列提取的特征。30、在上述的一种基于dnabert微调的g-四链体预测方法中,所述多头感知机包括使用全连接层进行预测,输入最终序列提取的特征,在特征融合后,全连接层将融合后的特征映射到低维度的表示空间,学习样本和标签之间的关系,将特征送入一个或多个全连接层,应用激活函数,实现最终的g-四链体的二分类。31、本发明中,bertpooler负责将整个输入序列的表示转换为一个固定维度的向量,包含了一个线性层,这个线性层的输入维度与最后隐藏层状态维度相对应,输出维度与输入维度相同。在线性层后面连接激活函数,该激活函数优选的是双曲正切函数()。32、在上述的一种基于dnabert微调的g-四链体预测方法中,所述多头感知机还包括通过classifier分类器,进行线性变换,33、使用relu激活函数引入非线性特性,34、经过dropout层,随机丢弃输入的一些元素,防止过拟合,35、输出的模型预测g4形成的概率。36、通过classifier分类器即sequential模块,进行线性变换,使用relu激活函数引入非线性特性。然后经过dropout层,以概率 p=0.1 随机丢弃输入的一些元素,防止过拟合。输出的模型预测g4形成的概率。37、在上述的一种基于dnabert微调的g-四链体预测方法中,从数据集中抽取部分数据作为独立数据集,并使用独立数据集对经过训练的dnabert微调模型进行motif分析,以对模型关注到的特征进行解释。38、在上述的一种基于dnabert微调的g-四链体预测方法中,对dnabert微调模型进行解释具体包括:39、利用微调好的dnabert模型计算注意力分数,在独立数据集进行motif分析,利用p值对motif进行筛选,保留在正样本中频率显著高于截断值p值0.005的motif;40、将筛选的motif进行合并,以去除重复或高相似的motif;41、采用设定窗口大小来定义motif长度绘制出weblogo图,提取内源g-四链体的关键特征和分布。42、在验证集进行motif分析包括统计了特定序列在正样本中出现的次数以计算p值,p值用于衡量该序列在g4正样本集合中是否显著富集。43、本方法可以进行motif分析注意力分数可视化,增强模型可解释性。44、与现有技术相比,本发明的有益效果体现在:45、(1)本发明利用迄今最大的内源g-四链体测序数据作为训练数据集,包含36个人类细胞系的g4 chip-seq和g4 cut&tag体内测序数据。通过dnabert模型微调训练使得模型的预测性能得到提升。相比传统的one-hot编码,基于 dnabert编码的预测模型能够更好地捕获 g4序列中的局部特性和全局特征,本方法可以进行motif分析注意力分数可视化,增强模型可解释性。46、(2)本发明基于dnabert微调的g-四链体预测方法能显著提升模型对人类全基因组预测的预测率。
- 上一篇:一种主动脉裸支架结构的制作方法
- 下一篇:一种轮椅用快速锁装置的制作方法