一种基因外显子组预测数据检测基因组重复区域_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

一种基因外显子组预测数据检测基因组重复区域

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


一种基因外显子组预测数据检测基因组重复区域
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本申请属于基因组重复区间检测,更具体地说,是涉及一种基因外显子组预测数据检测基因组重复区域的方法。、拷贝数变异(copy number variation,cnv),是指与参考基因组相比,基因组中出现了长度至少为kb(平均长度kb)的拷贝数改变,通常是由于基因组中发了易位、倒位、缺失或重复...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本技术属于基因组重复区间检测,更具体地说,是涉及一种基因外显子组预测数据检测基因组重复区域的方法。背景技术:1、拷贝数变异(copy number variation,cnv),是指与参考基因组相比,基因组中出现了长度至少为1kb(平均长度250kb)的拷贝数改变,通常是由于基因组中发了易位、倒位、缺失或重复导致。cnv是广泛存在于基因组上的一种结构变异现象,在人类基因组中大概占5%~10%,其致病机制包括基因的剂量敏感效应、基因断裂、基因融合、非编码调控原件缺失等。常见的cnv相关疾病有22q11.2缺失综合征、1p36缺失综合征、wolf-hirschorn综合征等。当前,常用的检测cnv的方法有核型分析技术、fish技术、基因芯片技术、高通量测序技术、及多重连接探针扩增技术(mlpa)等。2、高通量测序技术又称下一代测序技术(ngs),是一种大规模平行测序技术,相比于传统一代测序(sanger)能够一次对几十万到几百万条核酸分子进行测序。目前由于ngs具有通量高、检测速度快、可扩展性及成本低等优点,已大量应用于临床分子诊断项目中。3、单核苷酸多态性(snp)主要是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性,是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。snp在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。4、全基因组测序(wgs)是指对基因组整体进行测序,从而分析不同个体之间的差异。全外显子组测序(wes)是利用捕获探针对基因组的外显子区域进行富集并测序,由于人类基因组的致病突变85%都位于外显子区域,因此wes测序通常有更高的测序深度且能检测到更多异常,因此与wgs相比wes更经济、高效、性价比较高。5、在临床遗传病基因检测过程中,wes技术通常用来检测外显子区域中单核苷酸变异(snvs)和微小的插入缺失(indel),但并不常规包含cnv的检测,这使得测序的检测结果可能会漏掉cnv的情况。由于cnv是多种遗传疾病的致病原因,当临床医师怀疑cnv时,往往需要进行额外的cnv技术(如cma或mlpa)检测以验证。因此,利用wes检测数据对cnv进行预测,能够提高基因检测的检出率,避免漏检的发生,同时也降低了检测的成本。6、众多学者开发了基于wgs与wes数据的cnv预测工具,如基于wgs数据的软件cnvnator、cnv-seq,以及基于wes数据的软件如xhmm、conifer、cnvkit等。大部分基于wes数据的cnv检测方法的基本原理为分析所有测序区域的平均测序深度(reads数),如有一目标区域的测序深度明显低于或高于平均测序深度,则可判定该区域存在缺失或重复。而为了提高cnv检测的准确率减少系统误差,大多分析方法都会选用一定数量的同批次对照样本做基线,并将基线和测试样本进行比较来识别是否存在阳性样本。7、wes样本数据的cnv检测往往取决于基线样本数据的质量。测序质量较高、批次样本量较大的实验室往往能获取到高质量基线数据,而测序质量不高、样本量较小的基层实验室则无法制作基线,从而无法检测cnv而导致漏掉cnv的情况。技术实现思路1、为实现上述目的,本技术采用的技术方案是:提供一种基于全外显子组测序数据检测基因组重复区域的方法,利用人群中稳定的snp位点作为候选位点,直接对单个wes测序的结果文件进行分析,不需要极限数据,从而解决了现有技术中无法制作基线导致的无法检测cnv而导致漏掉cnv的情况。2、一种基于全外显子组测序数据检测基因组重复区域的方法,包括以下步骤:3、步骤1:获取实验室wes检测结果,并读取wes检测结果中的snp位点信息,并对读取到的snp位点信息进行预处理,得到经过预处理后的snp位点信息;4、步骤2:对预处理后的snp位点信息进行滑动窗口划分;5、步骤3:对步骤2中所有滑动窗口中baf值<0.5的点位做出如下转换:6、baf’=baf×(-1)+1;7、式中:baf表示原始baf值;baf’表示转换后的baf值;8、步骤4:将步骤3中得到数据进行机器学习训练得到预测模型,并通过训练好的预测模型进行预测得到预测后的滑动窗口;9、步骤5:基于步骤4中得到的滑动窗口,继续采用滑动窗口的方法对步骤4中得到的预测结果为重复的滑动窗口进行连接;得到最终的预测结果。10、作为一种可选的实施方式,所述步骤1包括以下步骤:11、步骤1.1:收集实验室wes检测结果,利用变编程语言读取变异结果vcf文件中的snp位点信息;12、步骤1.2:创建数据库,将步骤1.1中提取到的所有snp位点信息数据存储到数据库中;13、步骤1.3:在数据库中利用结构化查询语言计算每个snp位点出现的频次,并计算snp位点出现的频率;14、步骤1.4:去掉数据库中存储的snp位点信息中indel与sv突变位点,再对snp位点进行筛选;其中筛选条件为:测序深度dp≥30,测序质量qual≥100,baf为10%~90%,常染色体snp位点出现频率≥30%,性染色体snp位点出现频率≥15%,得到经过预处理后的snp位点信息。15、作为一种可选的实施方式,所述snp位点信息中的字段信息包括:染色体号、位点坐标、测序质量、变异基因型、参考与变异碱基覆盖度以及位点测序深度;16、并计算变异碱基频率值:baf=ad/dp;其中baf表示b等位基因的频率;ad表示变异碱基数,dp表示位点测序深度。17、作为一种可选的实施方式,所述snp位点出现频率的计算方式为:snp位点出现频率=出现频次/总样本数。18、作为一种可选的实施方式,所述步骤2中将基因组分割为多个500kb的滑动窗口。19、作为一种可选的实施方式,所述步骤4包括以下步骤:20、步骤4.1:选择已知的阳性样本两例,去掉样本数据中的纯合点位,计算每个滑动窗口中的平均baf’值riwin;再计算样本中的所有滑动窗口的平均baf’值rallwin;计算样本中的所有滑动窗口的baf’值标准差stdallwin;最后根据如下公式求得样本中的每个滑动窗口的lrr值:21、22、步骤4.2:以样本中计算好的lrr值作为训练数据,并将训练数据分为训练集和测试集;选择隐马可夫模型作为机器学习训练模型;将每个滑动窗口的lrr值作为属性值进行无监督学习;23、步骤4.3:计算待测样本中每个滑动窗口的lrr值,将lrr值作为属性值,利用步骤4.2中训练好的模型对每个滑动窗口进行预测。24、作为一种可选的实施方式,所述步骤4还包括步骤4.4:在染色体图上对重复区域snp位点增加y坐标,并以红色显示,达到突出显示重复区域的目的。25、作为一种可选的实施方式,所述步骤4.2中,对于训练模型的参数设置包括:训练算法为维特比算法、隐藏状态个数为2以及协方差矩阵类型为“full”。26、作为一种可选的实施方式,所述步骤5中的具体步骤为:27、选择预定数量的滑动窗口作为组合滑动窗口大小,得到多个组合滑动窗口,若组合滑动窗口内的单个滑动窗口均为重复,则组合滑动窗口的位置为重复区域位置,若下一个单个滑动窗口仍为重复,则增加当与该单个滑动窗口重复的组合滑动窗口中;若下一个单个滑动窗口不为重复,则继续向下判定直到遇到新的重复区域。28、作为一种可选的实施方式,还包括步骤6:29、将先证者所有snp位点图、先证者snp筛选点位图、先证筛选位点baf’图、先证者母亲筛选位点baf’图以及先证者父亲筛选位点baf’图从上到下依次绘制。30、本技术的有益效果在于:与现有技术相比,首先本技术利用人群中稳定的snp位点作为候选位点,直接对单个wes测序的结果进行分析,不需要基线数据;其次不需要进行额外检测的情况下,本发明可对wes数据单个样本中基因组是否存在较大重复区域进行快速筛查,协助临床医师对测序结果进行判断,有效指导临床决策;同时也可对家系测序结果进行分析,有助于寻找异常原因。

一种基因外显子组预测数据检测基因组重复区域