一种单核苷酸多态性鉴定方法、系统及计算机设
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及单核苷酸多态性鉴定,具体涉及一种单核苷酸多态性鉴定方法、系统及计算机设备。、单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性,单核苷酸多态性分析(single nucleotide polymorphisms),是指在基因组上单个核苷酸的变异,形成的... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及单核苷酸多态性鉴定,具体涉及一种单核苷酸多态性鉴定方法、系统及计算机设备。背景技术:1、单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性,单核苷酸多态性分析(single nucleotide polymorphisms),是指在基因组上单个核苷酸的变异,形成的遗传标记,其数量很多,多态性丰富。2、相关技术中,单核苷酸多态性鉴定方法主要采用长读长测序技术或短读长测序技术。其中,基于长读长测序技术的单核苷酸多态性鉴定方法在测序样本深度较低时,易受到长读长高错误率的影响,检测出的单核苷酸多态性错误率较高。其中,短读长测序技术虽然准确度较高、价格便宜,但是由于短读长长度只有几百碱基,难以准确比对到基因组重复区域,因此,基于短读长测序技术的单核苷酸多态性鉴定方法对于检测复杂重复区域的单核苷酸多态性的灵敏度较低。3、综上,对于检测群体水平的单核苷酸多态性,需要平衡测序成本和检测效率,当前的单核苷酸多态性鉴定方法主要集中于单独利用短读长测序技术或长读长测序技术的一种测序方式进行分析鉴定,存在检测准确度低或检测灵敏度低的问题。技术实现思路1、有鉴于此,本发明提供了一种单核苷酸多态性鉴定方法、装置及计算机设备,以解决当前的单核苷酸多态性鉴定方法主要集中于单独利用短读长测序技术或长读长测序技术的一种测序技术进行分析鉴定,检测准确度低和检测灵敏度低的问题。2、根据第一方面,本实施例提供一种单核苷酸多态性鉴定方法,方法包括:3、获取单核苷酸多态性鉴定对象的待测样本数据,待测样本数据包括:待测长读长样本数据和待测短读长样本数据;4、利用短读长变异检测方式,生成用于鉴定待测短读长样本数据的单核苷酸多态性的短读长变异数据集;5、利用长读长变异检测方式,生成用于鉴定待测短读长样本数据的单核苷酸多态性的长读长变异数据集;6、利用长读长基因分型方式,对长读长变异数据集进行长读长基因分型,得到长读长基因分型数据集;7、整合短读长变异数据集和长读长基因分型数据集,以生成鉴定待测样本数据的长短读长复合变异数据。8、通过执行上述实施方式,综合利用短读长变异检测方式、利用长读长变异检测方式、利用长读长基因分型方式,最终将生成的长读长变异数据集和长读长基因分型数据集进行整合,能够实现对待测样本数据的精准分析,从而提高鉴定待测样本数据的单核苷酸多态性的准确度。9、在一种可选的实施方式中,获取单核苷酸多态性鉴定对象的待测样本数据,包括:10、利用生物数据生成软件生成单核苷酸多态性鉴定对象的待测长读长样本数据;11、利用生物数据质控软件对初始短读长样本数据按照短读长质量标准处理,生成单核苷酸多态性鉴定对象的待测短读长样本数据。12、通过执行上述实施方式,可以获取较为准确的单核苷酸多态性鉴定对象的待测样本数据。13、在一种可选的实施方式中,利用短读长变异检测方式,生成用于鉴定待测样本数据的单核苷酸多态性的短读长变异数据集,包括:14、依次利用短读长比对软件比对待测短读长样本数据、利用生物数据排序软件排序待测短读长样本数据、利用生物数据重复序列检测软件检测待测短读长样本数据、利用碱基质量分数校准软件校准待测短读长样本数据;15、基于校准后的待测短读长样本数据,利用短读长文本生成软件生成短读长gvcf文件;16、利用短读长样本合并软件合并短读长gvcf文件中包含多个数量的待测短读长样本数据;17、利用短读长基因分型软件对合并后的短读长gvcf文件进行基因分型;18、从基因分型后的待测短读长样本数据中提取样本特征,样本特征包括:质量分数除以覆盖深度特征、比对质量秩和检验值特征、读长位置秩和检验值特征、链特异性检验值特征、比对质量均方根特征、链特异性比值检验值特征和覆盖深度特征;19、将质量分数除以覆盖深度特征、比对质量秩和检验值特征、读长位置秩和检验值特征、链特异性检验值特征、比对质量均方根特征、链特异性比值检验值特征和覆盖深度特征输入至单核苷酸多态性灵敏度校准模型,预测基因分型后的待测短读长样本数据的灵敏度;20、过滤基因分型后的待测短读长样本数据的灵敏度,生成灵敏度大于或等于第一预设阈值的短读长变异数据集。21、通过执行上述实施方式,对待测短读长样本数据进行短读长变异检测,有利于提升鉴定单核苷酸多态性的灵敏度和准确度。22、在一种可选的实施方式中,利用长读长变异检测方式,生成用于鉴定待测长读长样本数据的单核苷酸多态性的长读长变异数据集,包括:23、利用长读长比对软件按照高质量测序方式比对待测长读长样本数据;24、利用长读长文本生成软件生成长读长gvcf文件;25、利用长读长合并软件合并长读长gvcf文件,并对合并后的长读长gvcf文件进行基因分型;26、过滤基因分型后的待测长读长样本数据,生成基因质量分数大于或等于第二预设阈值的长读长变异数据集。27、通过执行上述实施方式,对待测长读长样本数据进行长读长变异检测,能够实现对待测长读长样本数据的精准分析,从而提高鉴定待测长读长样本数据的单核苷酸多态性的准确度。28、在一种可选的实施方式中,利用长读长基因分型方式,对长读长变异数据集进行长读长基因分型,得到长读长基因分型数据集,包括:29、利用长读长比对软件按照低质量测序方式比对长读长变异数据集;30、利用长读长基因分型软件对长读长变异数据集进行基因分型,并计算长读长变异数据集的基因分型第一似然值;31、基于基因分型后的长读长变异数据集,利用长读长文本生成软件生成长读长vcf文件;32、基于哈迪温伯格检测信息、等位基因信息、基因分型信息、基因分型缺失信息,一次过滤长读长vcf文件包含多个数量的待测样本数据;33、基于低质量长读长信息,利用长读长单倍型定相软件获取短读长变异数据集进行单倍型定相信息;34、基于单倍型定相信息,利用长读长基因分型软件计算长读长变异数据集的基因分型第二似然值;35、基于哈迪温伯格检测信息、等位基因信息、基因分型信息,二次过滤长读长变异数据集;36、将基因分型第一似然值和基因分型第二似然值输入基因分型修正软件,对二次过滤后的所述长读长变异数据集进行修正,以生成长读长基因分型数据集。37、通过执行上述实施方式,利用长读长基因分型方式,充分提升单核苷酸多态性鉴定的准确度和灵敏度。38、在一种可选的实施方式中,整合短读长变异数据集和长读长基因分型数据集,以生成鉴定待测样本数据的长短读长复合变异数据集,包括:39、生物样本比较软件比对短读长变异数据集和长读长基因分型数据集,以获取短读长变异数据集和长读长基因分型数据集之间的单核苷酸多态性共享数据集;40、在单核苷酸多态性共享数据集中,计算短读长变异数据集对应的短读长哈迪温伯格检测值;41、在单核苷酸多态性共享数据集中,计算长读长变异数据集对应的长读长哈迪温伯格检测值;42、计算长读长哈迪温伯格检测值与短读长哈迪温伯格检测值之间的鉴定比值;43、若鉴定比值大于第三预设阈值,则将长读长基因分型数据集作为长短读长复合变异数据集;44、若鉴定比值小于或等于第三预设阈值,则将短读长变异数据集作为长短读长复合变异数据集。45、通过执行上述实施方式,短读长测序和长读长测序之间的互补优势,提升单核苷酸多态性检测的准确性和灵敏度。46、根据第二方面,本实施例提供一种单核苷酸多态性鉴定系统,装置包括:47、待测样本数据获取模块,用于获取单核苷酸多态性鉴定对象的待测样本数据;48、短读长变异数据检测模块,用于利用短读长变异检测方式,生成用于鉴定待测样本数据的单核苷酸多态性的短读长变异数据集;49、长读长变异数据检测模块,用于利用长读长变异检测方式,生成用于鉴定待测样本数据的单核苷酸多态性的长读长变异数据集;50、长读长数据基因分型模块,用于利用长读长基因分型方式,对长读长变异数据集进行长读长基因分型,得到长读长基因分型数据集;51、长短读长变异整合模块,用于整合短读长变异数据集和长读长基因分型数据集,以生成鉴定待测样本数据的长短读长复合变异数据集。52、根据第三方面,本实施例提供了一种计算机设备,包括:53、存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行第一方面或第一方面任一实施方式中的单核苷酸多态性鉴定方法。54、根据第四方面,本实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行第一方面或第一方面任一实施方式中的单核苷酸多态性鉴定方法。55、根据第五方面,本实施例提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行第一方面或第一方面任一实施方式中的单核苷酸多态性鉴定方法。