一种基于全基因组甲基化数据的模型预测方法及
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及深度学习,尤其涉及一种基于全基因组甲基化数据的模型预测方法及系统。、循环dna(circulating free dna,cfdna)的高通量测序技术已引发了重大变革,为非侵入性癌症检测方法提供了新的可能,也提高了cfdna序列数据结合甲基化信息的综合分析能力。、大多数cfdna... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及深度学习,尤其涉及一种基于全基因组甲基化数据的模型预测方法及系统。背景技术:1、循环dna(circulating free dna,cfdna)的高通量测序技术已引发了重大变革,为非侵入性癌症检测方法提供了新的可能,也提高了cfdna序列数据结合甲基化信息的综合分析能力。2、大多数cfdna研究集中在癌基因突变上,通过检测致癌基因中的特定突变,以计算循环肿瘤dna(ctdna)在总cfdna中的存在和比例。然而,在早期阶段,ctdna的比例太低,无法通过常规测序方法检测到。此外,驱动突变发送通常是多样化的,导致出现异质性,也限制了通过ctdna进行突变检测的潜力。还有通过cfdna检测染色体在细胞异变过程中的重排,例如拷贝数变化和片段模式。然而,由于cfdna测序数据是混合数据,并且信噪比低,因此这些低分辨率特征在检测时几乎无法与噪音区分开来,无法单独作为检测的准确生物标志物。3、dna的甲基化状态的变化涉及整个基因组,使得甲基化成为早期检测中一个重要的信息特征。因此,整合不同cpg位点的甲基化状态或不同亚基因组区域的甲基化状态成为提高检测精度的方法。此外,由于总cfdna中ctdna的比例与肿瘤负担呈一致关系,对cfdna进行解卷积以推断其来源有助于估计异常细胞存在和严重程度。然而,这些方法的性能仍受到信噪比低的限制。现有的研究还引入了基于概率方法的异常细胞定位器来预测异常细胞的位置和肿瘤负担,在血浆样本上取得了令人满意的结果。还提出了一种基于概率方法的升级版方法,称为异常细胞检测器,并且表现优于异常细胞定位器。异常细胞定位器利用相邻cpg位点之间甲基化状态的局部相关性,以单个测序读数的分辨率预测cfdna的来源,为研究cfdna测序数据提供了一种新颖的读数视角。然而,不同深度的测序数据可能会引入系统偏差到异常细胞检测器的预测结果中,最终影响结果的准确性。尤其是数据的复杂性和样本量的限制。在传统的筛查算法中,通常倾向于选择异常组织样本和正常血液样本进行深度学习模型的训练,这是为了避免选用ctdna含量较低的异常细胞血液样本,从而减少样本无法被有效分类的情况。然而,由于血液样本和组织样本在本质上的差异,这种方法在直接分类上的效果并不理想。4、在现有技术中,测序成本高昂,对髓母细胞瘤特有的低甲基化状态的深入分析不足,传统肿瘤早筛算法在样本选择和数据复杂性方面存在局限,导致筛查策略不够精确和高效。技术实现思路1、本发明的目的在于,提供一种基于全基因组甲基化数据的模型预测方法,解决以上技术问题;2、本发明的目的还在于,提供一种基于全基因组甲基化数据的模型预测系统,解决以上技术问题;3、一种基于全基因组甲基化数据的模型预测方法,包括,4、步骤s1,调用预备好的数据集中的全部cpg位点的甲基化状态,得到基础研究数据;5、步骤s2,对所述基础研究数据进行划分后,通过计算甲基化比率,得到差异区域;6、步骤s3,构建数据分析模型并训练,通过训练后的数据分析模型读取所述差异区域,输出预测数据。7、优选地,步骤s1包括,8、步骤s11,使用预处理工具对所述预备好的数据集的原始测序数据进行质量控制和预处理,得到处理后数据;9、步骤s12,基于甲基化位点检测器,对所述处理后数据和基因组参考序列进行比对,得到比对后数据;10、步骤s13,基于序列比对工具,对所述比对后数据进行排序和优化,得到优化后数据;11、步骤s14,调用所述优化后数据的全部所述cpg位点的甲基化状态,得到所述基础研究数据。12、优选地,步骤s2包括,13、步骤s21,将所述基础研究数据划分为多个长度为300bp的待对比区域;14、步骤s22,取同一个所述待对比区域的正常样本和异常样本进行比对;15、步骤s23,筛选出甲基化位点大于15的区域,得到待计算区域;16、步骤s24,计算每个所述待计算区域内全部基因片段的甲基化比率,得到甲基化率最大值和甲基化率最小值;17、步骤s25,计算所述正常样本的甲基化率最小值和所述异常样本的甲基化率最小值的差值,筛选出差值大于0.3的区域,得到所述差异区域。18、优选地,步骤s3包括,19、步骤s31,构建所述数据分析模型;20、步骤s32,分析所述差异区域的读取数据,所述读取数据包括至少3个所述cpg位点,得到对应甲基化信息;21、步骤s33,通过独热矩阵进行编码后,将每个所述读取数据转换为设定矩阵;22、步骤s34,对所述设定矩阵分配标签,得到所述训练后的数据分析模型;23、步骤s35,经过两次一维卷积层;24、步骤s36,通过流动注意力机制层动态调整所述训练后的数据分析模型,输出所述预测数据。25、优选地,步骤s36中包括,26、步骤s361,对输入序列进行线性投影,得到查询向量、键向量以及值向量;27、步骤s362,对所述查询向量、所述键向量进行非负投影;28、步骤s363,当汇聚侧的输出信息流恒定时,在源内引入竞争机制,得到第一汇聚输入信息向量和第一源流出信息向量;29、步骤s364,当源输入侧的信息流恒定时,在汇内引入分配机制,得到第二源流出信息向量和第二汇聚输入信息向量;30、步骤s365,基于所述汇聚侧的输出信息流恒定,所述源输入侧的信息流恒定,得到源竞争机制和汇分配机制的流动注意力,输出所述预测数据。31、优选地,步骤s362中非负投影的计算式为,32、33、34、其中,表示对所述查询向量进行非负投影,表示对所述键向量进行非负投影,sigmoid表示第一激活函数,e表示底数,q表示所述查询向量,k表示所述键向量;35、所述查询向量的计算式为,36、q=wqx′37、所述键向量的计算式为,38、k=wkx′39、所述值向量的计算式为,40、v=wvx′41、其中,q表示所述查询向量,k表示所述键向量,v表示所述值向量,wq表示所述查询向量的权重矩阵,wk表示所述键向量的权重矩阵,wv表示所述值向量的权重矩阵,x′表示所述输入序列。42、优选地,步骤s363中所述第一汇聚输入信息向量的计算式为,43、44、其中,i表示所述第一汇聚输入信息向量,表示对所述查询向量进行非负投影,m表示的数量,j表示的求和合集中第j个元素,t表示转置操作;45、所述第一源流出信息向量的计算式为,46、47、其中,o′表示所述第一源流出信息向量,表示对所述键向量进行非负投影,n表示的数量,u表示的求和合集中第u个元素,i表示所述第一汇输入信息向量的个数,t表示所述转置操作。48、优选地,步骤s364中所述第二源流出信息向量的计算式为,49、50、其中,o表示所述第二源流出信息向量,表示对所述键向量进行非负投影,n′表示的数量,u′表示的求和合集中第u′个元素,i表示所述第一汇输入信息向量的个数,t表示所述转置操作;51、所述第二汇聚输入信息向量的计算式为,52、53、其中,i′表示所述第二汇聚输入信息向量,表示对所述查询向量进行非负投影,m′表示的数量,j′表示的求和合集中第j′个元素,t表示所述转置操作。54、优选地,步骤s365中所述流动注意力的计算式为,55、56、其中,r表示所述流动注意力,sigmoid表示所述第一激活函数,i′表示所述第二汇聚输入信息向量,θ表示逐元素乘法,表示对所述查询向量进行非负投影,i表示所述第一汇聚输入信息向量,表示对所述键向量进行非负投影,t表示所述转置操作,softmax表示第二激活函数,o′表示所述第一源流出信息向量,v表示所述值向量。57、一种基于全基因组甲基化数据的模型预测系统,应用于所述的基于全基因组甲基化数据的模型预测方法,包括,58、数据处理模块,用于调用所述预备好的数据集中的全部所述cpg位点的甲基化状态,得到所述基础研究数据;59、差异区域定位模块,连接所述数据处理模块,用于划分所述基础研究数据后,计算所述甲基化比率,得到所述差异区域;60、预测输出模块,连接所述差异区域定位模块,基于所述训练后的数据分析模型,用于读取所述差异区域,输出所述预测数据。61、本发明的有益效果是:由于采用以上技术方案,通过深度学习模型进行深入分析,克服了在样本选择和数据复杂性方面的局限,预测结果准确,效率高。