基于单细胞转录组数据的细胞类型层次构建方法_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

基于单细胞转录组数据的细胞类型层次构建方法

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


基于单细胞转录组数据的细胞类型层次构建方法
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明属于信息处理,更进一步涉及生物信息数据处理,具体是一种基于单细胞转录组数据的细胞类型层次构建方法,对单细胞转录组的基因表达数据进行细胞类型层次构建,用于在不同的层次尺度下研究细胞异质性和对细胞类型进行注释。、单细胞转录组测序是一种用于全面测量单个细胞转录组的高通量测序技术,该技术可以...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明属于信息处理,更进一步涉及生物信息数据处理,具体是一种基于单细胞转录组数据的细胞类型层次构建方法,对单细胞转录组的基因表达数据进行细胞类型层次构建,用于在不同的层次尺度下研究细胞异质性和对细胞类型进行注释。背景技术:1、单细胞转录组测序是一种用于全面测量单个细胞转录组的高通量测序技术,该技术可以获得单个细胞的基因表达数据。这些数据被广泛用于对细胞进行细胞类型注释,研究细胞异质性。随着单细胞测序的进步,细胞类型之间的关系可以在越来越高的分辨率上解释。组织中不同分辨率的细胞类型形成了嵌套的细胞类型层次结构。构建细胞类型层次结构能够在不同层次尺度下研究细胞异质性。利用这一结构也能有效的简化细胞分类问题。随着测序技术的发展,单细胞转录组测序的基因表达数据集中的细胞数量和细胞类型数量在不断增多,细胞类型的分辨率也在不断增加。近年来,已经提出了许多利用细胞类型层次分类的方法,但是缺少构建有生物意义细胞类型层次结构的方法。2、陈凌曦等人在其发表的论文“incorporating cell hierarchy to decipher thefunctionaldiversity of single cells”(nucleic acids research.2023 jan 6;51(2):e9.)中提出了一种对无标签单细胞转录组数据构建层次结构的方法。该方法的实现步骤是,使用稀疏化的细胞相似性图,利用结构熵最小化构建细胞俱乐部二叉树,所有的细胞均处于叶子节点;使用动态规划算法寻找二叉树中代表细胞亚群的节点;结果为四层结构,分别表示所有细胞,细胞亚群,细胞俱乐部,细胞,能够在不同尺度下研究细胞异质性。该方法存在的不足之处在于,其使用细胞间相似性图,导致数据规模扩大时,图中的节点增多,难以构建层次结构。3、jurrian等人在其发表的论文“chetah:a selective,hierarchical cell typeidentificationmethod for single-cell rna sequencing”(nucleic acidsresearch.2019 sep 19;47(16):e95.)中提出了一种构建层次分类树并进行细胞类型注释的方法。该方法的实现步骤是,通过对细胞类型的平均基因表达使用简单层次聚类构建分类树,所有涉及到的细胞类型均处于叶子节点上,树形结构为二叉树结构;自顶向下的遍历分类树并根据设置的置信度进行分类,允许将细胞分配给中间细胞类型或者未知的细胞类型。该方法提高了识别未知细胞类型的能力。该方法存在的不足之处在于,真实的细胞类型之间的层次关系更加复杂,细胞类型的亚型数目不是固定的,使用二叉树不能表示具有生物意义的细胞类型层次结构。4、综上,尽管上述方法及现有技术在其任务中取得了各自的进展,但现有方法还不能构建具有生物学意义的细胞类型层次结构,又不能适应大规模数据。现有的细胞类型层次结构构建方法不能同时对单细胞转录组数据进行无监督学习的聚类分析和监督学习的细胞类型分类,适用性不强。技术实现思路1、本发明针对上述现有技术的不足,提出一种能在大规模数据条件下构建且具有生物学意义的基于单细胞转录组数据的细胞类型层次构建方法,用于解决在大规模数据条件下构建细胞类型层次结构研究细胞异质性的问题,以及在细胞层次分类任务中不能构建具有生物意义的细胞类型层次结构的问题。2、本发明是一种基于单细胞转录组数据的细胞类型层次构建方法,本发明构建细胞和细胞相似性图,对细胞和细胞相似性图进行粗化,具体粗化为细胞类型粗化图或元细胞粗化图,在两种粗化图上计算编码树得到细胞类型层次结构,实现步骤包括:3、步骤1,数据集预处理:输入待构建细胞类型层次结构的单细胞转录组的基因表达数据集,对输入的基因表达数据进行细胞过滤、数据标准化、高可变基因选择、数据缩放、降维的预处理,形成了预处理后的基因表达数据;4、步骤2,构建细胞和细胞相似性图:对预处理后的基因表达数据构建k最近邻居图,该图其中的点为细胞,边权重表示细胞和细胞的相似性,有0和1两种取值,0表示不相似,1表示相似,边是离散值;基于k最近邻居图中两个细胞的邻居交集计算细胞间的相似性,构建共享最近邻居图,图中的每个节点仍然表示细胞,边的大小表示细胞和细胞之间的相似性,边权重为大于等于0小于等于1的数,是连续值,边权重值越大表示细胞和细胞越相似;5、步骤3,对细胞和细胞相似性图进行粗化:对共享最近邻居图进行粗化,得到共享最近邻居图的粗化图,若输入的基因表达数据集具有细胞类型标签,使用细胞类型标签对共享最近邻居图进行粗化;粗化后称为细胞类型粗化图,图中节点个数为输入的基因表达数据集中细胞类型的数量,边权重的大小表示了细胞类型之间的相似性;若输入的基因表达数据集没有细胞类型标签,构建数据集的元细胞集合,元细胞是一群高度相似的细胞,代表一种潜在的细胞类型,每个元细胞具有各自的元细胞标签,每个元细胞标签是一个整数;元细胞集合表示了细胞和元细胞标签的映射关系;使用元细胞标签对得到的共享最近邻居图进行粗化;粗化后的图称为元细胞粗化图,图中节点个数为数据集中元细胞的数量,边权重的大小表示了元细胞之间的相似性;6、步骤4,构建细胞类型层次编码树:在细胞类型粗化图或元细胞粗化图上进行结构熵最小化构建各自的编码树,编码树代表细胞类型层次结构,两种编码树分别称为细胞类型层次分类树和元细胞层次树;7、初始化编码树为两层,第一层是根节点,代表所有细胞,第二层为粗化图中的所有节点,一个节点代表一种细胞类型或一个元细胞;在每次迭代中选择根节点的两个子节点进行合并操作,使得合并两个节点之后,结构熵的减小最大化,经过多次迭代合并之后得到一颗二进制编码树;在二进制编码树中,通过动态规划算法自底向上的选择节点代表细胞亚群;为了达到给定的高度,将二进制编码树通过删除节点操作进行压缩,使得从中删除每个内部节点后,编码树的结构熵增大量最小;依次执行这些步骤,得到具有生物意义的细胞类型层次结构;8、步骤5,使用构建的编码树对不同类型的单细胞转录组数据集进行分析:若输入的基因表达数据集没有细胞类型标签,元细胞层次树中具有代表细胞亚群的节点,节点的数量代表了输入的基因表达数据集中细胞亚群的数量,用来做聚类分析,分析不同层次结构下细胞类型的异质性;若输入的基因表达数据集具有细胞类型标签,细胞类型层次分类树表示了输入的基因表达数据集中细胞类型的相似性,使用细胞类型层次分类树结合分层分类器对新的未标注数据集进行层次分类,得到未标注数据集的细胞类型标签。9、本发明与现有技术相比,具有如下优点:10、能对大规模数据集构建细胞类型层次结构:本发明对细胞和细胞相似性图中高度相似的节点进行粗化,将高度相似的节点合并为一个节点,缩小了图的规模,解决了现有方法在大规模数据条件下图中节点数量多而导致的计算复杂问题;11、构建的细胞类型层次结构具有生物意义:本发明计算细胞类型之间的相似性并在计算编码树时限制层次结构高度,分支数量不固定,解决了现有方法只能生成固定分支数目的细胞类型层次结构问题,从而产生具有生物学意义的细胞类型层次结构,改进细胞类型识别中的层次分类性能。12、适用性强:本发明同时适用于有标签数据集和无标签数据集,本发明可对有标签数据集和无标签数据集进行不同的粗化,使用细胞类型标签对有标签数据集进行粗化,对有标签数据集可以构建分层分类器进行细胞类型注释,分类性能高。本发明使用元细胞对无标签数据集进行粗化,对无标签数据集可以进行聚类分析,在不同层次下分析细胞异质性。

基于单细胞转录组数据的细胞类型层次构建方法