一种网络生物数据物种分类识别系统
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及生物信息学和网络安全领域,具体是一种用于在网络关口对通过的生物数据进行自动实时捕捉、识别和物种分类的系统。该系统利用深度学习及高效的序列比对技术,对生物测序数据进行精确分析,以确保生物数据的安全和合规性。尤其适用于生物安全监控和科研数据实时分析。、随着全球数据通信和生物技术的快速... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及生物信息学和网络安全领域,具体是一种用于在网络关口对通过的生物数据进行自动实时捕捉、识别和物种分类的系统。该系统利用深度学习及高效的序列比对技术,对生物测序数据进行精确分析,以确保生物数据的安全和合规性。尤其适用于生物安全监控和科研数据实时分析。背景技术:1、随着全球数据通信和生物技术的快速发展,生物数据的安全和隐私保护日益成为全球关注的焦点。特别是对于具有特殊生物多样性和高度敏感的生物数据,如中国特有物种的基因信息及公民的基因数据,需要有效的技术解决方案来确保这些数据不被非法出境。现有的生物数据处理系统通常缺乏实时处理和高精确度的监控能力,无法满足高安全标准的需求。技术实现思路1、本发明提出了一种用于网络生物数据物种分类识别的技术方案,旨在通过深度学习驱动的文件类型识别和基于优化序列比对算法的高性能数据处理模块实现对网络中传输的生物数据进行实时捕捉、分析和分类,以防止敏感数据的非法流出。此外,本发明的分类识别系统还能作为第三方服务平台,为科研机构提供高准确性的物种识别服务。2、本发明的系统包括:3、文件类型识别模块:利用传统规则方法和深度学习算法双重检测数据流中的文件类型,分析文件后缀与内容,以判断是否为目标生物测序数据;通过预训练的神经网络模型对数据流中的文件类型进行识别,并确定数据是否符合生物测序数据的特征,确保只有目标生物数据被后续模块处理。该模块能够处理完整文件和网络字节流两种输入方式,通过训练的神经网络模型与目标数据规范检查来判断数据是否属于生物测序数据;4、索引构建模块:该模块利用一种优化的基于de bruijn图模型(rdbg-bwt或unitig-bwt)的索引构建方法,对选定的物种的参考基因组构建出一个高效的索引。这个索引使得系统能够迅速定位和比对即将分析的序列数据。该过程具体分为以下几个步骤:5、1)使用jellyfish进行kmer计数:对输入的参考基因组文件,利用jellyfish工具进行kmer计数,对所有kmer进行桶排序,提取出高频kmer;6、2)构建unitig列表:通过构建de bruijn图生成unitig列表,并将所有unitig连接成一个线性长序列,使用’#’号隔开;7、3)构建bwt索引:对整个连续的unitig序列应用bwt变换构建索引,以及生成布隆过滤器索引,以优化序列数据的快速定位与检索。8、序列比对模块:序列比对部分采用类似bwa的多线程架构,优化了比对过程,支持高通量数据处理,适应不同类型的测序数据。比对过程包括以下关键步骤:9、1)索引载入:载入预构建的bwt索引和布隆过滤器索引,准备比对;10、2)序列比对:11、a.种子提取:从待比对的序列中提取短的序列片段作为种子;12、b.快速定位:使用bwt索引快速定位种子在参考序列中的潜在匹配位置;13、c.序列扩展:从种子开始,扩展比对至整个序列,使用动态规划算法寻找最佳比对路径。14、3)多线程优化:整个比对过程在多线程环境中执行,每个线程负责一部分数据的处理,大幅提高处理效率和系统吞吐量。为了避免io等待,三个主线程并行处理数据。15、比对结果分析与物种分类识别模块:该模块实现三个步骤:16、1)结果解析:系统解析比对过程生成的sam格式文件,提取比对成功的序列及其在参考基因组中的位置信息,并对每条序列比对到的参考基因组进行统计。17、2)物种分类:利用最近公共祖先(lca)算法对比对结果进行深入分析,识别序列属于的物种及其在生物分类树中的位置,从而实现精确的物种识别和分类。18、3)物种占比分析:分析每个物种及其更高层级分类(界、门、纲等)的比例,为研究提供准确的生物多样性数据。19、本发明的应用场景包括20、1)国家安全和生物数据保护:本系统可以部署在国家网络关口,实时监控和审查通过的生物数据,防止与国家生物资源相关的敏感数据非法流出。21、2)科研支持服务:本系统还可以作为服务平台,为全球科研机构提供高效、准确的物种识别和生物数据分析服务,支持生物多样性研究和其他生物科学领域的数据需求。22、有益效果23、本发明通过结合先进的计算方法和创新的生物信息学技术,提供了一系列显著的有益效果,显著提高了生物数据处理的效率和安全性,具体包括:24、1.实时数据处理能力:本系统能够在数据通过网络时即时捕捉和处理,这一点对于快速响应的应用场景(如生物安全监控)至关重要,如在国际网络关口监测和防止敏感生物数据非法流出。25、2.高精度的物种识别:利用优化的序列比对算法和深度学习技术,系统能够提供比传统方法更准确的物种识别。这对于科研和生物多样性保护等领域非常有价值,可以提高研究的质量和可靠性。26、3.支持大规模数据处理:系统采用高效的多线程处理架构,使其能够处理大规模数据集,满足大数据时代生物信息学研究的需求。这一特点特别适合于处理来自高通量测序技术的大量数据。27、4.可扩展性和灵活性:系统设计考虑了高度的可扩展性和灵活性,可以轻松适应不同规模和类型的数据处理需求。无论是大规模的国家级监控项目,还是小规模的科研数据分析,本系统都能提供稳定可靠的服务。28、5.多功能性和多用途性:系统不仅可以用于监控和保护敏感生物数据,也可以作为科研工具,支持生物数据的分析和研究,支持高准确性的物种识别和生物数据分析。29、通过集成创新的技术和优化现有工作流程,本发明有效地提升了生物数据处理的效率和准确性,同时保证了数据的及时处理。这些改进反映了在生物信息学领域对高性能和高精度工具的持续需求。技术特征:1.一种网络生物数据物种分类识别系统,其特征在于:包括以下模块:2.根据权利要求1所述的系统,其中文件类型识别模块进一步配置为:3.根据权利要求1所述的系统,其中索引构建模块进一步配置为:4.根据权利要求1所述的系统,其中序列比对模块进一步配置为:5.根据权利要求1所述的系统,其中比对结果分析与物种分类识别模块进一步配置为:技术总结本发明提出了一种网络生物数据物种分类识别系统,包括文件类型识别模块、索引构建模块、序列比对与分类模块、物种分类识别比对结果分析模块。索引构建模块允许用户根据需要调节系统的审查严格程度与速度,通过选择增加或减少参考物种的数量来构建索引。序列比对和分类模块通过采用多线程架构和高效的优化的比对算法,生成标准的SAM格式结果。数据统计和分析模块进一步分析这些结果,使用最近公共祖先(LCA)算法确保提供准确的物种识别信息。该系统利用深度学习技术与基于规则的方法识别传入的生物数据文件类型,确保只处理目标生物数据,优化了生物数据的处理流程,提高了数据处理的效率和精确性,特别适合需要高度数据安全和快速响应的应用场景。技术研发人员:林群彬,国宏哲,赵天意,卓子寒受保护的技术使用者:哈尔滨工业大学技术研发日:技术公布日:2024/8/16