一种全基因DNA数据再定义方法
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及基因组数据分析,尤其涉及一种全基因dna数据再定义方法。、基因是产生一条多肽链或功能rna所需的全部核苷酸序列,带有遗传信息的dna片段称为基因。、基因组区域文件是一种重要的文件格式,通过解读基因组区域文件可以了解到基因组dna序列中编码区域、非编码区域、基因结构、蛋白质编码区、... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及基因组数据分析,尤其涉及一种全基因dna数据再定义方法。背景技术:1、基因是产生一条多肽链或功能rna所需的全部核苷酸序列,带有遗传信息的dna片段称为基因。2、基因组区域文件是一种重要的文件格式,通过解读基因组区域文件可以了解到基因组dna序列中编码区域、非编码区域、基因结构、蛋白质编码区、启动子区、转录因子结合位点等重要信息。通过这些信息可以对后续物种功能分析起到关键的作用。比如在分析中常用到的gff格式。基因组变异位点文件涵盖该基因组所有变异位点,无论与参考基因组一致与否,都可以在此文件中体现出来,比如在分析中常用到的vcf文件。3、gff格式是sanger研究所定义,是一种简单的、方便的对于dna、rna以及蛋白质序列的特征进行描述的一种数据格式,目前也是序列注释的通用格式。gff文件全称为“general feature format”,即通用特征格式,是一种文本文件格式,用于描述生物学序列中的基因、转录本、外显子、内含子以及其他的序列特征。通常,这些特征用于基因组注释、基因识别、序列比对、基因功能预测等应用中。除了描述特征的位置信息之外,gff文件还可以记录特征的名称、作用和参考文献等信息,较为全面地描述了序列中所有的特征信息。4、cds(coding sequence)是编码一段蛋白产物的序列,dna转录成mrna,mrna经剪接等加工后翻译出蛋白质,所谓cds就是与蛋白质序列一一对应的dna序列,该序列中间不含其它非该蛋白质对应的序列,且不考虑mrna加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。通过对cds的研究,可以更进一步了解基因编码蛋白质的氨基酸序列和功能、研究基因的进化和变异。此外在基因编辑和基因治疗等领域,cds序列的分析和修改也具有重要的价值。5、蛋白质互作网络(ppi, protein-protein interaction networks)是蛋白质互作网络是描述蛋白质相互作用关系的图形化表示。在生物学中,蛋白质不仅作为单独的分子存在,它们还可以相互作用形成复杂的网络结构。这些相互作用可以是直接的,例如蛋白质之间的物理结合,也可以是间接的,例如通过共同的信号传导路径。系统分析大量蛋白在生物系统中的相互作用关系,对了解生物系统中蛋白质的工作原理,了解疾病等特殊生理状态下生物信号和能量物质代谢的反应机制,以及了解蛋白之间的功能联系都有重要意义,常常与筛选关键基因相关联。6、目前全基因水平上,dna数据是重要的生物数据,研究dna数据并解读其含义也是基因组时代的主要研究任务。在多个方面都有广泛的应用,存储任意数字信息、搭建dna数据库、确定基因型、进行基因测序并进行后续分析等。但是现有技术中不能通过gff文件、vcf文件直接对物种进行解析。7、在分子生物学和遗传学领域,基因组是重要的生物数据,研究基因组并解读其含义也是分子生物学和遗传学的主要研究任务。因为基因的一点变动会造成蛋白的变化,从而引发蛋白质的结构和功能,因此,研究基因的重要性不言而喻。然而识别基因并不容易,我们需要借助计算机的计算能力,并根据生物知识设计出算法才能找出它们。鉴于此,本发明提供一种将基因组可视化,重新定义基因组的方法。通过对最基本的基因组dna序列和注释数据等基因组相关的分析数据及所述每个基因的蛋白网络节点数的注释后的注释文件进行相应的打分,方便直观的识别已知或者未知的数据模式或者比较差异。技术实现思路1、本发明为解决上述问题,提供一种全基因dna数据再定义方法。2、本发明目的在于提供一种全基因dna数据再定义方法,具体包括如下步骤:3、s1.获取文件:获取待测物种的基因组区域文件、参考基因组文件和基因组变异位点文件;所述基因组变异位点文件通过比对所述参考基因组文件确定;4、s2.数据信息处理:在所述基因组区域文件中提取所述待测物种的基因所在位置的数据信息;通过所述基因组变异位点文件确定突变位点;5、s3.数据信息分类:对所述基因组区域文件中的数据信息进行分类;6、s4.打分排序:以基因编码区为权重,对于mrna、gene、exon、utr、qtl和/或甲基化区域按照在所述待测物种的生物过程中发挥的作用和与突变位点的距离由高到低依次打分,距离突变位点最近的位置信息的区域记为10分,在距离突变位点的上游和下游1000bp内依次递减打分;根据得分对所述待测物种进行定义。7、优选的,步骤s1中的基因组区域文件包括基因组结构注释文件和蛋白注释文件。8、优选的,步骤s3中的分类,具体包括如下步骤:9、s31.在所述基因组区域文件中提取基因编码区cds的列,以及提取mrna、gene、exon、utr和/或功能的列,在linux中利用awk命令进行分类;10、s32.选中所有分类后的数据,根据不同类型的区域,对数据进行筛选;11、s33.利用软件tbtools,将所述基因组区域文件、参考基因组文件导入,输出文件的类别,完成分类;12、s34.蛋白互作网络构建:根据所述蛋白注释文件与同源的拟南芥蛋白进行配对,配对后根据现有的蛋白互作数据库构建蛋白互作网络,计算每个蛋白连接的节点数。13、优选的,步骤s4还包括:按照在所述待测物种的生物过程中发挥的作用和与突变位点的距离由高到低依次打分后得到区域基础分,再根据每个基因在所述蛋白互作网络中的节点数计算节点分,每个节点记为1分;14、打分公式为:15、节点分=;16、将区域基础分与节点分相加,得到所述得分。17、优选的,awk命令为:18、;19、所述x为cds、mrna、gene、exon、utr、qtl或甲基化区域。20、优选的,参考基因组文件为fasta序列文件;所述基因组变异位点文件为vcf文件。21、优选的,步骤s1中获取vcf文件的方法具体包括:22、用fastp数据质控软件对下机数据进行去除测序接头处理得到测序数据;利用bwa序列比对软件将测序数据比对到参考基因组,利用samtools序列比对软件以及预设的基因组位置信息对经比对的测序数据的序列进行排序;利用picard高通量测序数据格式工具包分别对经排序的测序数据中的重复片段pcr进行过滤处理;使用gatk对过滤后的测序数据进行基因组变异分析,最终获得vcf文件。23、优选的,基因组结构注释文件是根据某一基因的gff格式文件添加所述节点数的注释后的注释文件。24、优选的,gff格式文件通过对所述参考基因组文件和测序数据进行注释得到。25、优选的,待测物种为水稻或大豆。26、与现有技术相比,本发明能够取得如下有益效果:27、(1)为不具有生物学意义格式的gff文件赋予生物学意义;28、(2)只需要通过对待测物种的gff文件、vcf文件进行处理和相应的打分排序,不需要过多的计算,一定程度上节省了时间,对后续的分析起到了简化的作用;29、(3)只需要待解析物种的基因组区域文件、参考基因组文件和基因组变异位点文件,就可以对此文件进行分类、排序,可以应用于gwas(genome-wide associationstudies)—全基因组关联研究、gs(genomic selection)—全基因组选择育种、qtl定位、物种进化与演化、大群体筛选、新品种鉴定标准、辐射诱变的筛选等多个方面。30、(4)本发明提供一种将基因组可视化,重新定义基因组的方法。通过对最基本的基因组dna序列和注释数据等基因组相关的分析数据及所述每个基因的蛋白网络节点数的注释后的注释文件进行相应的打分,方便直观的识别已知或者未知的数据模式或者比较差异。