医疗专利数据库

一种miRNA数据的筛选方法

发布日期:2024-08-22 浏览次数:

本发明属于生物信息学领域,涉及mirna数据的筛选方法。背景技术:1、microrna(mirna)是一类长度约为21-25个核苷酸的非编码rna分子,在基因表达调控中起着至关重要的作用。它们通过与信使rna(mrna)的特异性结合,导致mrna的降解或抑制其翻译,从而调控基因的表达。2、现有的mirna筛选方法主要包括以下步骤:首先,通过小rna测序技术获得原始数据;然后,利用软件工具去除3′端的接头序列和标签,并保留长度在15–41核苷酸(nt)的序列;接着,使用blastn等比对工具将处理后的序列与rfam数据库进行比较,以注释核糖体rna(rrna)、小核rna(snrna)、转运rna(trna)等非mirna序列,并过滤掉转录本与重复序列;最后,通过与mirbase数据库进行比对,鉴定已知的mirna。3、然而,在实现本发明过程中,发明人发现现有技术中至少存在如下技术问题中的一个问题:4、a)现有技术在过滤原始数据的接头后,主要依赖于注释结果来区分不同的小rna类型(mirna、rrna、pirna、trna等),这一过程容易受到非mirna序列的干扰,可能导致将非mirna错误注释为mirna,增加了假阳性的风险。5、b)现有方法对数据库的完整性和质量要求较高,对于那些在数据库中缺乏信息的物种,注释结果可能不准确,从而影响mirna的有效分离和鉴定。6、c)对于新物种或未被充分研究的物种,由于缺乏参考序列,现有方法在7、mirna的预测和注释上面临挑战。技术实现思路1、鉴于此,本发明目的在于提供一种改进的mirna筛选方法,旨在通过先进的生物信息学技术提高筛选的准确性和可靠性,减少对大型数据库的依赖,并有效降低假阳性的发生率。本发明特别适用于那些数据库信息不完整的物种,为mirna的研究提供了一种新的策略。2、发明人通过长期的探索和尝试,以及多次的实验和努力,不断的改革创新,为解决以上技术问题,本发明提供的技术方案是,提供一种mirna数据的筛选方法,顺次包括以下步骤:3、a.过滤低质量碱基;4、b.去除3′端的测序接头序列,保留长度在15–41nt之间的序列;5、c.使用目标物种的线粒体基因组、rrna以及trna作为第一参考序列,与目标物种亲缘关系较近物种的序列作为第二参考序列;过滤掉能与第一参考序列和/或第二参考序列进行匹配的序列;6、d.根据pirna在序列的一号位碱基对尿嘧啶的偏倚性以及mirna与pirna的长度差异,过滤掉pirna;7、e.通过统计不同长度的序列数量,确定目标物种的mirna长度范围;8、f.选择出现次数≥10次的序列作为推定的mirna;9、g.对推定的mirna进行注释,以区分已知的序列,并预测未知的mirna。10、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤a中使用fastx-toolkit软件中的fastq_quality_filter脚本;或者选自prinseq lite、trim galore!或seqprep。11、根据本发明mirna数据的筛选方法的一个实施方式,所述脚本的过滤参数为-q20,-p 90。12、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤b中使用软件cutadapter、skewer或trimmomatic去除3′端的测序接头序列。13、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤c中使用的比对软件为bowtie、bwa、star或hisat2。14、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤d中pirna过滤基于pirna的序列特征和长度差异;用于pirna过滤的软件选自piler-cr或repdenovo。15、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤e中确定的mirna长度范围用于优化后续的mirna预测和注释;使用的统计分析软件选自rseqc或preseq。16、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤f中选择出现次数作为减少假阳性结果的依据。17、根据本发明mirna数据的筛选方法的一个实施方式,所述步骤g中使用的注释软件为blast、mirdeep-p2或miranalyzer。18、根据本发明mirna数据的筛选方法的一个实施方式,还包括使用实时定量pcr对筛选得到的mirna进行验证的步骤。19、与现有技术相比,上述技术方案中的一个技术方案具有如下优点:20、a)本发明mirna数据的筛选方法通过在数据处理阶段早期排除非mirna序列,如线粒体基因组、rrna、trna和pirna等,减少了这些序列在后续比对注释阶段的干扰,从而显著提高了mirna筛选的准确性。21、b)本发明mirna数据的筛选方法利用pirna的序列特征和长度差异进行过滤,以及基于序列出现次数的筛选标准(出现次数≥10次),减少了假阳性的产生,增强了筛选结果的可靠性。22、c)本发明mirna数据的筛选方法不完全依赖于现有的mirna数据库进行筛选,而是结合序列保守性和出现频率等生物信息学特征,使得该方法即使在缺乏详尽数据库信息的物种上也能有效地筛选mirna。23、d)本发明mirna数据的筛选方法通过统计分析不同长度序列的数量,能够确定目标物种的mirna长度范围,这有助于进一步精细化筛选流程,提高筛选效率。24、e)本发明允许使用多种不同的软件和参数组合来执行筛选流程中的各个步骤,如使用fastx-toolkit、cutadapter、bowtie、25、bwa等,提供了实施上的灵活性和可扩展性。26、f)本发明mirna数据的筛选方法的一个实施方式中,筛选得到的mirna可以通过实时定量pcr进行验证,确保了结果的准确性。此外,本发明的方法框架允许未来轻松整合新的生物信息学工具和技术,以不断提高筛选性能。27、g)本发明的方法可以使用现有的操作系统和软件环境来实施,如ubuntu操作系统和多种生物信息学软件,这些工具的广泛可用性和用户友好性使得本发明的方法易于被广大研究人员采用和实施。28、h)由于本发明的方法减少了对高通量测序数据的重复分析和验证,以及减少了对大型数据库的依赖,因此在时间和经济成本上都具有显著优势。技术特征:1.一种mirna数据的筛选方法,其特征在于,顺次包括以下步骤:2.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤a中使用fastx-toolkit软件中的fastq_quality_filter脚本;或者选自prinseq lite、trim galore!或seqprep。3.根据权利要求2所述的mirna数据的筛选方法,其特征在于,所述脚本的过滤参数为-q 20,-p 90。4.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤b中使用软件cutadapter、skewer或trimmomatic去除3′端的测序接头序列。5.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤c中使用的比对软件为bowtie、bwa、star或hisat2。6.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤d中pirna过滤基于pirna的序列特征和长度差异;用于pirna过滤的软件选自piler-cr或repdenovo。7.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤e中确定的mirna长度范围用于优化后续的mirna预测和注释;使用的统计分析软件选自rseqc或preseq。8.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤f中选择出现次数作为减少假阳性结果的依据。9.根据权利要求1所述的mirna数据的筛选方法,其特征在于,所述步骤g中使用的注释软件为blast、mirdeep-p2或miranalyzer。10.根据权利要求1所述的mirna数据的筛选方法,其特征在于,还包括使用实时定量pcr对筛选得到的mirna进行验证的步骤。技术总结本发明公开一种miRNA数据的筛选方法,顺次包括以下步骤:过滤低质量碱基;去除接头序列、线粒体基因组、rRNA以及tRNA序列;过滤掉piRNA;通过统计不同长度的序列数量,确定目标物种的miRNA长度范围;选择出现次数≥10次的序列作为推定的miRNA;对推定的miRNA进行注释,以区分已知的序列,并预测未知的miRNA。本发明方法通过在数据处理阶段早期排除非miRNA序列,如线粒体基因组、rRNA、tRNA和piRNA等,减少了这些序列在后续比对注释阶段的干扰,从而显著提高了miRNA筛选的准确性。技术研发人员:陈贵英,唐家兴,张广普,王杰受保护的技术使用者:四川师范大学技术研发日:技术公布日:2024/8/16