一种融合表达数据和功能数据的癌症基因选择方
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及癌症诊断领域,尤其涉及一种融合表达数据和功能数据的癌症基因选择方法。、随着基因组学的发展,研究人员迫切希望能将基因中的具体信息数据化,因此基因表达谱数据应运而生。通过研究这些数据可以得到癌症的差异表达信息,这些差异性表达信息可以让研究人员直观地去观察、了解细胞变化过程,对早起癌症... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及癌症诊断领域,尤其涉及一种融合表达数据和功能数据的癌症基因选择方法。背景技术:1、随着基因组学的发展,研究人员迫切希望能将基因中的具体信息数据化,因此基因表达谱数据应运而生。通过研究这些数据可以得到癌症的差异表达信息,这些差异性表达信息可以让研究人员直观地去观察、了解细胞变化过程,对早起癌症诊断和预测具有重大意义。2、近年来,越来越多的基于基因表达数据的特征选择算法已允许从健康状态和疾病状态间对分子差异进行分析。通过特征选择从众多基因中选择小部分与癌症诊断密切相关的基因,这样既可以降低癌症诊断的成本,又可以提高诊断的精度。但是这些方法的局限性在于,一些基因在表达没有改变的情况下,仍然是引发癌症的潜在基因,这是仅利用表达数据的特征选择算法无法做到的。3、为此,提出一种融合基因表达数据和功能数据的数据构造方法,并在融合的多类型数据基础上利用传统特征选择算法挖掘癌症相关基因的融合表达数据和功能数据的癌症基因选择方法。技术实现思路1、为了克服现有技术基因在表达没有改变的情况下,仍然是引发癌症的潜在基因,这是仅利用表达数据的特征选择算法无法做到的不足,本发明提出一种融合基因表达数据和功能数据的数据构造方法,并在融合的多类型数据基础上利用传统特征选择算法挖掘癌症相关基因的融合表达数据和功能数据的癌症基因选择方法。2、一种融合表达数据和功能数据的癌症基因选择方法,其特征在于,包括有以下步骤:步骤1:构建功能网络;步骤2:融合数据;步骤3:基因选择。3、进一步的,构建功能网络:功能网络的构建由无向图g=(v,e)表示,其中v={v1,v2,...,vn}表示无向图中的节点集合,e表示无向图中边的集合,w={wij|i=1,2,...,n;j=1,2,...,n}表示任意两基因相互作用的集合;映射到构建的功能网络中,每个节点表示一个基因vi,每条边则是基因间的相互作用wij,wij表示第i个基因vi与第j个基因vj的相互作用。4、进一步的,为了衡量不同疾病样本对参照样本的干扰程度,通过构造的扰动网络和参考网络获得差异网络,即δpcc=|pccn+1-pccn|;为了保留每条差异显著的边,公式利用z-test评估每条边差异值的显著性,从统计学的角度,保留z-test值在1.96以上的边(z>1.96)。5、进一步的,融合数据:根据差异网络合成功能数据,首先,统计每个差异网络中每个节点和其他节点存在边的数量,每条边的w值表示对照样本对参考样本中基因的扰动程度;其次,利用公式对每个节点i连接的边权值求和wsmi,wsmi表示第m个样本与i节点连接边的权值和,表示该基因在疾病发生过程中被影响程度;最后,按照上述程序可以获得d个样本的功能数据ws。功能数据和原始数据组合起来作为待处理数据集nd,通过差异网络,构造出一批d行2n列的数据集,其中d表示样本数,2n表示n维基因表达数据和n维功能数据。6、进一步的,基因选择:利用nsga-ii算法中的非支配排序方法和互信息理论选择出与原始数据同样维度的数据集;算法设定的两个目标函数,分别考虑基因间的冗余程度ffred及基因和类标签的关联程度fcrel。7、进一步的,公式和为设定的目标函数,分别为关联程度、冗余程度,给定类标签c,c={c1,c2,...,ck},合成数据nd的类标签数为k,数据维度为2n,所以特征集f={f1,f2,...,f2n}。选择维度为n的最优特征子集f。8、进一步的,首先,使用公式(3)计算所有特征和类标签的关联程度,选择最大值放进最优子集f,将该特征从f中移除;然后,对每个未选择的特征,计算特征和类标签的关联程度fcrel,再使用公式(4)计算f中特征的平均冗余程度affred(特征和特征的冗余程度ffred);此时,每个未选择的特征包含特征-类标签关联程度和平均特征-特征冗余程度,从这些计算值中,使用nsga-ii的非支配排序分别对特征-类和特征-特征值进行非支配排序,获得支配数cd和被支配数fd,特征的支配数表示它在特征-类互信息中占主导地位的数量,而被支配数表示它主导特征-特征互信息的特征数量,选择支配数和被支配数差值最大的特征,直到特征子集的维度为n,选择的数据称为多类型数据sn。9、进一步的,算法主要是通过下面几部分实现:第一步,通过参考样本和原始数据构建参考网络pccn和扰动网络pccn+1;第二步,利用参考网络和扰动网络获得差异网络,并通过差异网络合成功能数据ws;第三步,对合成数据nd利用非支配排序方法降维,得到多类型数据sn。10、本发明具有如下优点:1、本发明融合基因数据和功能数据提出一种数据构造方法,并利用构造的多类型数据sn在经典特征选择算法上挖掘与癌症诊断相关的基因进行分析,该方法融入个体特异性特点,同时最大程度保留和类标签关联程度高,冗余程度小的基因,且多类型数据sn的样本类型发生了明显的变化,整体安全样本增多,稀有和异常样本有所下降,这对诊断结果有着一定的帮助。11、2、从实验结果表明,多类型数据sn比原始数据在不同特征选择算法上预测准确度更具有竞争优势,在6个经典特征选择算法中,尤其cmdpso算法,无论在smkcan高维数据还是glioma较低维度数据表现都较为优秀,这也说明sn可以很好应用在不同维度问题的特征选择算法上。12、3、从生物意义来讲,结合多类型数据sn的特征选择算法可以搜索到非差异表达的潜在癌症基因,这些基因与癌症产生与发展存有极大关联,但是针对不同的数据类型,提升效果是不同,尤其在极度不平衡数据集上提升性能差一些,因此,若能够从不平衡数据方面着手研究,使特征选择算法选择更好的解。技术特征:1.一种融合表达数据和功能数据的癌症基因选择方法,其特征在于,包括有以下步骤:2.根据权利要求1所述的融合表达数据和功能数据的癌症基因选择方法,其特征在于,构建功能网络:功能网络的构建由无向图g=(v,e)表示,其中v={v1,v2,...,vn}表示无向图中的节点集合,e表示无向图中边的集合,w={wij|i=1,2,...,n;j=1,2,...,n}表示任意两基因相互作用的集合;3.根据权利要求2所述的融合表达数据和功能数据的癌症基因选择方法,其特征在于:为了衡量不同疾病样本对参照样本的干扰程度,通过构造的扰动网络和参考网络获得差异网络,即δpcc=|pccn+1-pccn|;为了保留每条差异显著的边,公式利用z-test评估每条边差异值的显著性,从统计学的角度,保留z-test值在1.96以上的边(z>1.96)。4.根据权利要求1所述的融合表达数据和功能数据的癌症基因选择方法,其特征在于,融合数据:根据差异网络合成功能数据,首先,统计每个差异网络中每个节点和其他节点存在边的数量,每条边的w值表示对照样本对参考样本中基因的扰动程度;其次,利用公式对每个节点i连接的边权值求和wsmi,wsmi表示第m个样本与i节点连接边的权值和,表示该基因在疾病发生过程中被影响程度;最后,按照上述程序可以获得d个样本的功能数据ws。功能数据和原始数据组合起来作为待处理数据集nd,通过差异网络,构造出一批d行2n列的数据集,其中d表示样本数,2n表示n维基因表达数据和n维功能数据。5.根据权利要求1所述的融合表达数据和功能数据的癌症基因选择方法,其特征在于,基因选择:利用nsga-ii算法中的非支配排序方法和互信息理论选择出与原始数据同样维度的数据集;算法设定的两个目标函数,分别考虑基因间的冗余程度ffred及基因和类标签的关联程度fcrel。6.根据权利要求5所述的融合表达数据和功能数据的癌症基因选择方法,其特征在于,公式和为设定的目标函数,分别为关联程度、冗余程度,给定类标签c,c={c1,c2,...,ck},合成数据nd的类标签数为k,数据维度为2n,所以特征集f={f1,f2,...,f2n}。选择维度为n的最优特征子集f。7.根据权利要求6所述的融合表达数据和功能数据的癌症基因选择方法,其特征在于,首先,使用公式(3)计算所有特征和类标签的关联程度,选择最大值放进最优子集f,将该特征从f中移除;然后,对每个未选择的特征,计算特征和类标签的关联程度fcrel,再使用公式(4)计算f中特征的平均冗余程度affred(特征和特征的冗余程度ffred);此时,每个未选择的特征包含特征-类标签关联程度和平均特征-特征冗余程度,从这些计算值中,使用nsga-ii的非支配排序分别对特征-类和特征-特征值进行非支配排序,获得支配数cd和被支配数fd,特征的支配数表示它在特征-类互信息中占主导地位的数量,而被支配数表示它主导特征-特征互信息的特征数量,选择支配数和被支配数差值最大的特征,直到特征子集的维度为n,选择的数据称为多类型数据sn。8.根据权利要求7所述的融合表达数据和功能数据的癌症基因选择方法,其特点在于,算法主要是通过下面几部分实现:第一步,通过参考样本和原始数据构建参考网络pccn和扰动网络pccn+1;第二步,利用参考网络和扰动网络获得差异网络,并通过差异网络合成功能数据ws;第三步,对合成数据nd利用非支配排序方法降维,得到多类型数据sn。技术总结本发明涉及癌症诊断领域,尤其涉及一种融合表达数据和功能数据的癌症基因选择方法。一种融合表达数据和功能数据的癌症基因选择方法,包括有以下步骤:(1)构建功能网络;(2)融合数据;(3)基因选择。本发明融合基因数据和功能数据提出一种数据构造方法,并利用构造的多类型数据Sn在经典特征选择算法上挖掘与癌症诊断相关的基因进行分析,该方法融入个体特异性特点,同时最大程度保留和类标签关联程度高,冗余程度小的基因,且多类型数据Sn的样本类型发生了明显的变化,整体安全样本增多,稀有和异常样本有所下降,这对诊断结果有着一定的帮助。技术研发人员:刘道广,李心茹受保护的技术使用者:徐州工业职业技术学院技术研发日:技术公布日:2024/8/16