医疗专利数据库

一种基于ProtBERT的甲基化DNA偏好结合转录因子识别

发布日期:2024-08-22 浏览次数:

本发明涉及生物技术数据研究领域,特别涉及一种基于protbert的甲基化dna偏好结合转录因子识别方法。背景技术:1、转录因子是一种调控基因表达的dna结合蛋白。转录因子通过在三维基因组的形成过程中介导dna序列间的长距离相互作用,引导tad与环形结构的形成、a-b区域的转换及核的重新定位,从而影响转录调控。转录调控机制在细胞过程中发挥重要功能,影响癌症发展及植物产量等方面。2、传统观点认为转录因子倾向于结合未甲基化的dna,而cpg二核苷酸的高水平甲基化则阻碍其结合。近期的研究表明,众多转录因子,如klf4、tet、cebpa和zfp57,更倾向于与甲基化dna结合,并且显著调节基因表达,促进转录启动及rna剪接。3、甲基化dna与转录因子间具体的相互作用及其功能尚不明确,识别偏好结合甲基化dna的转录因子和揭示相互作用机制对于理解甲基化介导的生物过程及相关疾病具有重要意义。4、目前,通过串联质谱法、功能性蛋白微阵列、dna微阵列、chip-bs-seq及ht-selex等高通量实验方法,可以识别偏好结合甲基化dna的转录因子。然而,鉴于后基因组时代蛋白质序列数量的迅猛增长,实验方法由于高成本和长时效性的局限,已难以满足需求,开发新的计算方法来识别这些转录因子显得尤为重要。技术实现思路1、本发明的目的在于克服现有技术的不足,提供一种基于protbert的甲基化dna偏好结合转录因子识别方法。2、本发明的目的是通过以下技术方案来实现的:3、1.一种基于protbert的甲基化dna偏好结合转录因子识别方法,包括以下步骤:4、s1.获取转录因子序列数据集,并分为训练集和测试集;5、s2.通过autotokenizer将所有序列填充或裁剪处理到相同长度和标记化;6、s3.使用bertforsequenceclassification加载预训练的protbert模型进行序列分类。7、进一步的,所述步骤s1中,对序列数据集的处理中,包括对偏好甲基化dna的转录因子和偏好非甲基化dna的转录因子的处理,处理步骤包括:8、s201.排除含有非标准氨基酸残基的序列;9、s202.使用cd-hit20去除冗余样本;10、s203.偏好甲基化dna序列的转录因子提取为阳性样本,偏好非甲基化dna的转录因子被提取为阴性样本。11、进一步的,在所述步骤s2中,根据转录因子的分布情况,设定一个统一的目标长度, 覆盖大多数序列长度,对于长度超过目标长度的序列,将其从末端裁剪;对于长度小于目标长度的序列,需要通过添加特定的填充标记[pad]到序列的规定位置,接着将每个转录因子序列分解成基本单位氨基酸,根据预先定义的词汇表映射为模型可识别的数值标识符,并会在序列的开头和结尾分别添加特殊标记[cls]和[sep],表示整个序列的开始和结束。12、进一步的,在所述步骤s3中,使用bertforsequenceclassification加载预训练的protbert模型进行序列分类中,初始训练集为:13、,14、初始测试集为:15、,16、和分别表示训练集和测试集中的蛋白质序列,和分别为和对应的标签,n和m分别表示训练集和测试集中的样本数;蛋白质序列需要通过autotokenizer标记化,标记为,每个序列通过tokenizer转换成一个向量,其中包含的整数id对应于序列中的每个氨基酸,因为序列长度需要统一,标记化后的向量转变为,l是预定义的目标序列长度,如果的长度大于l,则序列被裁剪;如果小于l,则在其后填充特定的标记[pad]直到长度达到l。17、进一步的,在所述步骤s3中,模型会计算输入序列中每个元素对序列中其他元素的关注度,模型以此捕捉序列内部的复杂依赖关系,首先需要通过对输入序列进行线性变换获得query(q)、key(k)、value(v)矩阵,数学表达为:18、19、20、21、其中,x为输入序列,、和权重矩阵是模型训练过程中学习到的参数。22、计算自注意力的数学表示为:23、,24、其中,q、k和v分别是查询、键和值矩阵,是键的维度,softmax函数用于将权重标准化;25、每个transformer编码器层包括一个前馈神经网络,进行两层线性变换,变换过程中使用relu激活函数:26、,27、其中、为更新后的权重矩阵,、为更新后的偏置,用于引入非线性。28、进一步的,将序列通过嵌入层转换为嵌入向量,该嵌入向量包括词嵌入和位置嵌入,词嵌入和位置嵌入相加,得到最终输入式;词嵌入通过在随机初始化的嵌入矩阵中根据整数编码进行查找,并将对应的词嵌入向量合并获得,而位置嵌入通过正余弦函数计算得到,给定位置p和维度i,表示为:29、30、31、据此计算对应的嵌入值,生成d维的位置嵌入向量,再合并即可;32、再将输入transformer层,逐层进行更新,更新公式为:33、,34、其中,是第层的输出结果,是第层更新后的输出结果;35、其中,在第一层中,隐藏状态,使用第一个标记cls的最终隐藏状态h[cls]l,作为整个序列的汇总向量,经过droupout层和全连接层的处理后获得每个类别的原始得分,droupout层处理公式为:hdrop=dropout(h[cls]l),按规定的概率随机丢弃神经元的输出,全连接层的处理公式为:;再通过softmax函数对原始得分转换为同维度的概率分布;36、其中,是处理后的向量,w和b分别是线性层的权重矩阵和偏置向量,是模型训练过程中学习到的参数,z是每个类别的原始得分,其中p是概率向量。37、本发明的有益效果是:38、(1)protbert模型采用了多层transformer架构,能够捕捉序列中的深层次特征和复杂的依赖关系,dropout层的应用增强了模型在新数据上的泛化能力,线性分类层将模型的输出转换为类别概率,在进行偏好结合甲基化dna的转录因子分类中具有较高的准确度和可靠性;39、(2)与传统的基于序列的预测技术相比,通过结合大模型技术,提升了处理效率,且自适应地学习序列的内在特征,提高了预测准确度、敏感性、特异性、matthews相关系数和roc 曲线下面积等指标。