发布日期:2024-08-22 浏览次数:次
本发明涉及生物工程,具体涉及一种环境宏基因组的基因组组成构建方法。背景技术:1、宏基因组指的是某个环境中全部微生物的总和,按照大类可分为自然环境宏基因组(enviromental metagenome)和生命体宏基因组(host metagenome),生命体宏基因组又可分为人体基因组(human metagenome)和非人体宏基因组(non-human metagenome)。常见的人体基因组包括粪便、外周血、盥洗液、穿刺液、组织、脑脊液等标本,这些标本中包含有人体细胞或者人体脱落细胞以及存在的其他生物体,包括细菌、真菌、病毒、寄生虫。提好总dna或者rna进行高通量基因组测序后,分析的第一步环节是通过基因组比对得到微生物的组成,而基因组比对依赖于高质量的基因组数据库。2、目前的基因组组成构建方式,都是依赖于与基因组数据的比对后,对序列进行注释,一般可以分为两种模式,一种是挑选每种微生物特异性的基因作为参考序列,第二种方式是使用原始基因组。这两种常用的物种比对模式如图1所示,特异性参考基因组的好处是可以节约大量的比对时间,并且会明显降低数据的假阳性问题,经过粪便宏基因组的验证发现,其精度和原始基因组差别不大,但这对微生物含量较低的标本并不适用,真实世界的数据中,测序的微生物序列可能只有几十条甚至几条,使用特异性的基因,可能会造成高比例的假阴性。同时,现存的基因组存在拼接错误的可能,需要进行质量控制,并且用真实的数据进行测试并标记出错误区域,不同的参考基因组可能会共享区域,比对到该区域的微生物序列,无法准确判定到底哪些微生物。3、综上所述,我们需要一个准确的环境宏基因组的基因组组成构建方法。技术实现思路1、本发明要解决的技术问题是针对现有技术的不足而提供一种环境宏基因组的基因组组成构建方法,减少宏基因组的物种假阳性。2、为解决上述技术问题,本发明的内容包括:3、一种环境宏基因组的基因组组成构建方法,该方法是在宏基因组数据分析中,在序列唯一比对和多重比对完成后,根据唯一比对结果计算每个物种的唯一风度系数unico{specy};然后根据每个物种的唯一风度系数unico{specy}和多重比对结果,计算每个多重比对序列被分配到该物种的权重multi{specy},最后将每个物种的唯一风度系数unico{specy}及该物种对应的所有权重multi{specy}合并起来计算得到每个物种的基因组丰度lnr{specy}。4、作为本发明的一种优选技术方案,该方法包括以下实施步骤:5、s1.在序列比对完成后,对序列进行遍历,并按照比对结果进行分类注释;6、s2.遍历物种列表,计算每个物种的唯一风度系数unico{specy};7、s3.对多重比对的序列进行遍历,针对每个序列,遍历其比对到的多个物种后,计算每个序列属于在不同物种中的权重multi{specy};8、s4.计算宏基因组基因组组成:针对每个物种,其最终的基因组丰度lnr{specy}为其唯一风度系数unico{specy}和对应的所有权重multi{specy}的总和。9、作为本发明的一种优选技术方案,每个物种的唯一风度系数unico{specy}计算公式为:10、unico{specy}=sum{u/l}11、式中,u表示唯一比对到该物种的序列的个数,l为该物种基因组的平均长度,sum{u/l}为该物种下所有基因组系数的总和。12、作为本发明的一种优选技术方案,每个多重比对序列被分配到对应物种的权重multi{specy}计算公式为:13、multi{specy}=1*unico{specy}/sum{unico{specy}}14、式中,1为该序列的固定值,sum{unico{specy}}表示该序列比对到所有物种的唯一风度系数unico{specy}的总和。15、作为本发明的一种优选技术方案,每个物种的基因组丰度lnr{specy}计算公式为:16、lnr{specy}=unico{specy}+sum{multi{specy}}17、式中,sum{multi{specy}}表示该物种比对到的多重比对序列权重multi{specy}的总和。18、作为本发明的一种优选技术方案,计算出每个物种的基因组丰度lnr{specy}后,对其进行归一化处理,包括测序量归一化lnrrpm{specy}和百分比归一化rlnr{specy}。19、作为本发明的一种优选技术方案,测序量归一化lnrrpm{specy}计算公式为:20、lnrrpm{specy}=lnr{specy}*(size/1000000)21、式中,size表示测序的总序列条数。22、作为本发明的一种优选技术方案,百分比归一化rlnr{specy}计算公式为:23、rlnr{specy}=lnr{specy}/sum{lnr{specy}}24、式中,sum{lnr{specy}}表示该标本中所有物种的lnr{specy}值的总和。25、本发明的有益效果是:26、本发明提供了一种环境宏基因组的基因组组成构建方法,减少宏基因组的物种假阳性。27、序列比对是所有基因组分析的基础。在宏基因组数据分析中,序列比对大致可以分为两类:1)唯一比对,即序列只能比对到一个物种;2)多重比对,序列可以比对到多个物种。本发明按照序列比对类型分开计算,分别称为唯一风度系数unico{specy}和权重multi{specy},最后再合并起来计算最终的基因组丰度。除了本身物种的丰度度外,基因组的丰度值还受两个因素影响:基因组的长度和测序的数据量,本发明在算法设计时也针对两个值进行了矫正。技术特征:1.一种环境宏基因组的基因组组成构建方法,其特征在于:该方法是在宏基因组数据分析中,在序列唯一比对和多重比对完成后,根据唯一比对结果计算每个物种的唯一风度系数unico{specy};然后根据每个物种的唯一风度系数unico{specy}和多重比对结果,计算每个多重比对序列被分配到该物种的权重multi{specy},最后将每个物种的唯一风度系数unico{specy}及该物种对应的所有权重multi{specy}合并起来计算得到每个物种的基因组丰度lnr{specy}。2.根据权利要求1所述的环境宏基因组的基因组组成构建方法,其特征在于:该方法包括以下实施步骤:3.根据权利要求1所述的环境宏基因组的基因组组成构建方法,其特征在于:每个物种的唯一风度系数unico{specy}计算公式为:4.根据权利要求1所述的环境宏基因组的基因组组成构建方法,其特征在于:每个多重比对序列被分配到对应物种的权重multi{specy}计算公式为:5.根据权利要求1所述的环境宏基因组的基因组组成构建方法,其特征在于:每个物种的基因组丰度lnr{specy}计算公式为:6.根据权利要求1所述的环境宏基因组的基因组组成构建方法,其特征在于:计算出每个物种的基因组丰度lnr{specy}后,对其进行归一化处理,包括测序量归一化lnrrpm{specy}和百分比归一化rlnr{specy}。7.根据权利要求6所述的环境宏基因组的基因组组成构建方法,其特征在于:测序量归一化lnrrpm{specy}计算公式为:8.根据权利要求6所述的环境宏基因组的基因组组成构建方法,其特征在于:百分比归一化rlnr{specy}计算公式为:技术总结本发明提供了一种环境宏基因组的基因组组成构建方法,该方法是在宏基因组数据分析中,在序列唯一比对和多重比对完成后,根据唯一比对结果计算每个物种的唯一风度系数unico{specy};然后根据每个物种的唯一风度系数unico{specy}和多重比对结果,计算每个多重比对序列被分配到该物种的权重multi{specy},最后将每个物种的唯一风度系数unico{specy}及该物种对应的所有权重multi{specy}合并起来计算得到每个物种的基因组丰度LNR{specy}。本发明用于减少宏基因组的物种假阳性。技术研发人员:李昂,王慧芬,朱威威,雷俊,董子慧,张一泽,余祖江受保护的技术使用者:郑州大学第一附属医院技术研发日:技术公布日:2024/8/15