表征DNA样品的方法与流程_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

表征DNA样品的方法与流程

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


表征DNA样品的方法与流程
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明涉及通过确定与不同类型的染色体不稳定性相关的拷贝数签名(copynumber signature)的存在来表征dna样品的方法。其特别但不排他地涉及用于确定肿瘤是否具有与染色体不稳定性相关的一种或更多种缺陷(例如受损的同源重组和复制应激)的方法,以及涉及基于来自肿瘤的dna样品中拷贝数签名的...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明涉及通过确定与不同类型的染色体不稳定性相关的拷贝数签名(copynumber signature)的存在来表征dna样品的方法。其特别但不排他地涉及用于确定肿瘤是否具有与染色体不稳定性相关的一种或更多种缺陷(例如受损的同源重组和复制应激)的方法,以及涉及基于来自肿瘤的dna样品中拷贝数签名的存在来识别治疗的方法。背景技术:1、染色体不稳定性(chromosomal instability,cin)是dna中数量上和结构上积累变化的过程。cin是癌症的标志之一,并且随着时间的推移表现为整个染色体或部分染色体的变化。大规模染色体畸变可被容忍并且不会随着时间的推移而改变的稳定状态被称为非整倍体,并被视为cin的产物。2、cin的后果是复杂的并包括驱动基因的反复丧失或扩增[9-11]、高度复杂的局灶性重排、染色体外dna和微核的形成、固有免疫信号传导的激活[bakhoum et al.,2018]、以及与疾病阶段[raghvendra et al.,2020,vargas-rondon et al.,2018]、转移[bakhoumet al.,2018b]、不良预后[bakhoum et al.,20111]和治疗抗性[lee et al.2011]的相关性。cin的原因同样复杂并包括有丝分裂染色体错误分离、同源重组缺陷、端粒危象和断裂融合桥循环。3、尽管原因和后果不同,但cin通常被用作涵盖性术语。cin的量度要么将肿瘤分为高/低cin的大类[birbak,2011],要么局限于单一病因,如同源修复缺陷[davies et al.,2017],或者限于特定的基因组特征,如整个染色体臂的变化[cohen-sharir et al.,2021]。作为结果,没有系统性框架来全面表征cin的多样性、程度和起源,并定义不同类型的cin如何与临床表型相关。4、因此,仍然需要用于表征染色体不稳定性的改善的方法。技术实现思路1、本发明人设计了在人癌症中用于染色体不稳定性的稳健分析框架。特别地,本发明人识别了使用不包括区段的绝对拷贝数的有限的基础拷贝数特征组可以稳健地表征染色体不稳定性的模式。本发明人还表明了该方法在7,880个高品质样品的泛癌分析中的相关性。本发明人由此识别了拷贝数签名的纲要,其表征了跨33种癌症类型的不同类型的cin及其病因,并由多种独立数据源支持。然后,发明人表明了通过使用签名来预测药物响应和识别新的药物靶标而识别的泛癌签名的生物学相关性。特别是,在药物和遗传扰动二者的支持下,识别了40个基因的签名和靶标之间的相关性。这表明了签名在识别用于癌症的现有治疗策略中的用途。此外,还识别了靶向104个具有可成药结构但没有已知靶向治疗的基因和签名之间的相关性。这表明了签名在药物设计过程中通过识别用于癌症治疗的药物靶标的用途。发明人还示出了新框架如何完善对最具临床相关性的cin类型之一的受损同源重组(impair homologous recombination,ihr)的理解。特别地,发明人识别了ihr的三个不同签名:单独的ihr签名、ihr加复制应激的签名以及ihr加复制应激和受损的损伤感知及核苷酸切除修复(nucleotide excision repair,ner)的签名。最后,本发明人表明了这些签名可用于在多种癌症(包括卵巢癌和食管癌)中预测对基于铂的治疗的敏感性。2、因此,根据第一方面,提供了表征从肿瘤中获得的dna样品的方法,所述方法包括以下步骤:3、(a)获得样品的肿瘤拷贝数谱;4、(b)量化拷贝数谱的拷贝数特征组,其中拷贝数特征是在拷贝数谱中表征拷贝数事件的指标,并且其中特征组不包含拷贝数谱中的区段的绝对拷贝数;以及5、(c)确定染色体不稳定性的一个或更多个签名的暴露,其中染色体不稳定性的签名已通过量化多个肿瘤样品中的拷贝数特征组,并识别可能产生多个肿瘤样品的拷贝数谱的一个或更多个突变签名来获得。6、本发明人已识别了如果相同病因的签名跨不同的倍性背景出现,则不包括表示区段拷贝数的特征有利地避免了冗余。例如,在全基因组复制(whole-genome duplicate,wgd)背景中的单拷贝丧失与在非wgd背景中的缺失相比,将导致两种不同的拷贝数状态,并因此由两个不同的签名编码,即使它们可能是由相同的突变过程引起的。因此,这导致使用这些拷贝数特征识别出了更稳健和更具生物学相关性的签名。7、该方法可具有以下特征中的任一者或更多者。8、染色体不稳定性的一个或更多个签名可各自单独地与引起染色体不稳定性的一个或更多个过程相关,并且对一个或更多个签名的暴露可以指示样品中相应过程的存在。发明人已识别了不包括拷贝数改变事件的绝对拷贝数来作为用于表征拷贝数谱的特征出乎意料地改进了使用拷贝数特征推导出的签名。特别地,当签名实际上表示相同的突变过程时,这避免了将签名按倍性状态人为划分。9、量化拷贝数谱的拷贝数特征组可包括针对拷贝数谱中每个拷贝数事件的一个或更多个特征进行量化,所述一个或更多个特征选自:区段尺寸、拷贝数变化点、断裂点计数/序列的预定长度和/或断裂点计数/染色体臂,以及具有振荡拷贝数的区段数目。拷贝数特征组可以包含所有以下特征:区段尺寸、断裂点计数/序列的预定长度、拷贝数变化点、断裂点计数/染色体臂以及具有振荡拷贝数的区段数目。拷贝数特征组可以由所述特征或者所述特征和一个或更多个等位基因特异性特征组成。本发明人发现该拷贝数特征组足以描述染色体不稳定性的已知模式(参见表2),包括扩增(由区段尺寸(segment size,ss)、拷贝数变化点(copy number changepoint,cnc)和断裂点/10mb(bp10)特征捕获)、非整倍体(由ss和cnc特征捕获),断裂融合桥(由cnc和断裂点/染色体臂(bparm)特征捕获)、染色体碎裂(由cnc、bp10、bparm和具有振荡拷贝数(oscillating copy number,osc)的区段数目特征捕获)、复杂基因组重排(由ss、cnc、bp10、bparm和osc特征捕获)、缺失(由cnc特征捕获)染色体外dna(由ss和cnc特征捕获)、同源重组缺陷(由ss、cnc、bp10、bparm和osc特征捕获)、杂合性丧失(由ss、cnc和bparm特征捕获)、微核(由ss和cnc特征捕获)、串联重复(由ss、cnc、bparm和osc特征捕获)以及全基因组重复(由cnc特征捕获)。因此,该特征组可以表示紧密但稳健且完整的特征组来描述拷贝数谱。此外,本发明人已识别了与使用由每个特征捕获的信息中可能包含一些冗余(或甚至噪声)的更扩展的组相比,使用这样的紧密组具有数个优点。特别地,使用具有不重叠的定义的紧密特征组意指每个特征都是更直接地可解释的,并且其捕获的信息不会在多个特征中被稀释。另外,使用另外的特征(可能与cin无关)可能会导致识别不代表真正生物学差异的人为签名。这样的人为签名可能很难识别和自动除去,导致可解释性和可重复性较差的结果。10、区段尺寸可以针对拷贝数谱中的每个区段进行量化。拷贝数变化点可以针对拷贝数谱中的每个区段进行量化。拷贝数变化点可以相对于左侧(上游)相邻区段进行量化。断裂点计数/序列的预定长度可以针对落在序列的预定长度内的每组区段进行量化。断裂点计数/染色体臂可以针对落在染色体臂内的每组区段进行量化。可以针对包括在两个不同绝对拷贝数之间振荡的最大数目连续区段的每组区段,对具有振荡拷贝数的区段的数目进行量化。11、断裂点计数优选在序列的两个单独长度上进行量化:序列的预定长度和拷贝数谱中表示的每个染色体臂的染色体臂长度。序列的预定长度优选短于拷贝数谱中表示的最短染色体臂。例如,断裂点计数/序列的预定长度有利地在8和12mb之间,优选地约10mb的序列的预定长度上进行量化。当观察人拷贝数谱时,这样的值可以是特别有利的。事实上,本发明人已认识到拷贝数改变(copy number alteration,cna)的簇可以以多种尺寸出现,例如各自具有小于10kb长度的短串联重复、各自具有超过100kb长度的长串联重复,以及达到大规模迁移和染色体碎裂事件(其可以跨越数十兆碱基)。其各自的簇尺寸可以是数十kb最高至整个染色体臂。本发明人已进一步认识到,拷贝数特征组将理想地包含能够捕获所有这些事件的特征。然而,发明人进一步认识到,人基因分型阵列上最小的染色体臂例如snp6的长度为12.8mb,使得具有大于此的窗口尺寸可能导致较小染色体臂上偏斜的断裂点密度。相反,如果窗口尺寸太小,则可能无法捕获中等尺寸的簇。可以为此包括另外的特征,但这将提高方案的复杂性,并可能导致特征中的一些冗余。因此,发明人识别了断裂点计数/8至12mb(优选约10mb)和断裂点计数/染色体臂的组合,以理想地捕获例如人基因组中的预期的拷贝数改变的模式。12、使用特征(例如断裂点计数/序列的预定长度、断裂点计数/染色体臂的和具有振荡拷贝数的区段数目)有利地捕获在多个区段或长段dna上其自身表现的现象。当仅使用表征单个区段的特征时,这是不可能的。因此,这导致了对样品中有活性的cin过程的更完整(和更具生物学相关性)的表征。13、该特征组还可包含等位基因特异性特征。等位基因特异性特征可以有利地使得能够检测拷贝中性的杂合性丧失。等位基因特异性特征例如可以是序列的一部分的主要等位基因相对于两个等位基因的比例。然而,包含等位基因特异性特征可能限制该方法对具有等位基因特异性分辨率的序列数据(例如wgs、snp 6.0阵列)的适用性。因此,可以有利地不包含等位基因特异性特征(例如杂合性丧失特征,例如主要等位基因相对于两个等位基因的比例),以提高该方法对使用多种技术(例如基因分型阵列、单细胞测序、浅层全基因组测序等)所获得的测序数据的适用性的范围。14、量化拷贝数特征组可包括使用未经舍入(unround)的拷贝数区段。量化拷贝数特征组可包括使近二倍体区段折叠并合并为二倍体状态,其中近二倍体区段是拷贝数在距2的预定距离内的区段。预定距离可以是0.1。因此,量化拷贝数特征组可包括将拷贝数2(即折叠)分配至具有在预定边界内的拷贝数(例如如1.9以上和2.1以下)的任何区段,并且合并具有相同拷贝数的任何连续区段来作为分配的结果。这可以有利地避免包括来自这样的区段的信号:其可能是正常二倍体区段并且其可能在该过程中充当噪声。未经舍入的拷贝数区段可以是其拷贝数尚未舍入至接近整数的区段。因此,该方法优选地使用未经舍入的拷贝数谱和/或其中所进行的唯一舍入涉及近二倍体区段的折叠。发明人已识别了使用未经舍入的拷贝数使他们能够使用拷贝数谱中存在的更多信息(在其他情况下将被合并的区段数目方面,但也在每个区段的所述谱中包含的拷贝数信息方面)。可以以信息丧失为代价对区段的拷贝数进行舍入,以除去拷贝数谱中的噪声。本发明人已进一步识别了通过合并与“正常”拷贝数状态有微小偏差的区段,可以在与cin相关的信息丧失最小化的情况下,至少部分地补偿与使用未经舍入的拷贝数区段相关的另外噪声。15、量化拷贝数特征组可包括量化选自区段尺寸和拷贝数变化点的特征,并且其中所述特征不针对二倍体区段进行量化。在量化区段尺寸和/或拷贝数变化点特征时忽略正常的二倍体区段可以有利地避免夸大这样的区段的量化,所述区段预期会更多,并且不会捕获与这些特征的染色体不稳定性有关的信息。发明人表明,这导致了改善的签名暴露(可能更反映真实的生物学),其中具有相似暴露的样品比如果没有忽略正常区段的样品具有更相似的暴露(如通过余弦相似性量化)。事实上,本发明人发现,即使在强重排的基因组上,正常的二倍体区段影响了签名活性,并因此除去该区段是有利的,特别是当观察来源于多种癌症的签名时,所述多种癌症中许多样品可能具有较少经重排的基因组。量化拷贝数特征组可包括量化选自断裂点计数/序列的预定长度和断裂点计数/染色体臂的特征,并且其中所述特征针对包含二倍体区段的所有区段进行量化。发明人已识别了尽管断裂点计数特征受到二倍体区段过度表达的影响,但该影响不像例如拷贝数变化点特征那样有问题,因为变化点特征可以量化由二倍体区段围绕的每个异常区段的两个事件(而拷贝数仅发生了一个相关变化),而断裂点特征将断裂点量化为dna已经断裂和修复的相关事件,并因此在由二倍体区段围绕的异常区段的情况下,通过对两个断裂点进行计数,这些不会被二次计数。如果任何染色体的第一区段是正常区段(在本上下文中,其中正常区段是指二倍体区段),则可以通过忽略该区段来量化拷贝数变化点特征。事实上,变化点特征描述了从一个区段到其相邻区段的绝对拷贝数的差异,所述相邻区段可以是左侧的区段(即前面的区段),在这种情况下,每个染色体的最开始区段可能没有左侧的相邻区段。如果任何染色体的第一区段不是正常区段,则可以通过从所述区段的绝对拷贝数减去2来量化变化点特征。如果该区段不是正常区段,则这假设(不存在的)前一区段是正常区段(拷贝数2)。16、量化拷贝数特征组可包括跨拷贝数谱获得每个拷贝数特征的一个或更多个概括量度。一个或更多个概括量度可包含特征已量化的所有拷贝数事件上的属于预定分布组中的每一个预定分布的每个特征值的后验概率之和。一个或更多个概括量度可凭经验通过量化多个肿瘤样品中的拷贝数特征进行识别。预定分布组可包含一个或更多个分布,例如如1至30、1至25、3至25。预定分布在本文中也可称为“分量(component)”。每个拷贝数特征可与多个分量相关,并且针对每个这样的分量可以获得跨拷贝数谱的概括量度。使用用相关数据凭经验识别的概括量度意指特征真正反映了生物学过程,而不是虽然便于操作,但可能与生物学无关的任意的类别。例如,可以通过对包含多个肿瘤样品的拷贝数特征的已量化组的数据组应用混合建模来识别预定分布组。这使得能够识别肿瘤中存在的拷贝数特征的真实状态,并因此量化待分析的新样品中存在这些状态的证据。使用属于预定分布组中的每一个预定分布的每个特征值的后验概率有利地使得该方法能够处理将区段分配至状态的不确定性(即,该区段是否提供由拷贝数特征的分布之一所表征的特定类别的cin事件存在的证据的不确定性)。这意味着该方法通过设计能够处理数据中不可避免的噪声,导致样品的更准确的表征。17、拷贝数特征的预定分布组可以是任何准连续特征的高斯(gaussian)分布组。预定分布组可以是用于任何计数特征的泊松(poisson)分布组。预定分布组可使用混合建模技术获得。计数特征可选自断裂点计数/序列的预定长度和/或断裂点计数/染色体臂,以及具有振荡拷贝数的区段数目。准连续特征可以是非计数特征的任何特征,例如如区段尺寸和拷贝数变化点。例如,区段尺寸特征可以通过获得多个高斯分布中每一个的后验概率之和(跨拷贝数事件求和)进行量化,所述多个高斯分布例如如20至25个高斯分布(例如22个高斯分布)。作为另一个实例,拷贝数变化点特征可以通过获得多个高斯分布中每一个的后验概率之和(跨拷贝数事件求和)进行量化,所述多个高斯分布例如如5至15个高斯分布(例如10个高斯分布)。作为另一个实例,断裂点/预定序列长度特征可以通过获得多个泊松分布中每一个的后验概率之和(跨拷贝数事件求和)进行量化,所述多个泊松分布例如如1至5个泊松分布(例如3个泊松分布)。作为另一个实例,断裂点/染色体臂特征可以通过获得多个泊松分布中每一个的后验概率之和(跨拷贝数事件求和)进行量化,所述多个泊松分布例如如1至10个泊松分布(例如5个泊松分布)。作为另一个实例,具有振荡拷贝数特征的区段数目可以通过获得多个泊松分布中每一个的后验概率之和(跨拷贝数事件求和)进行量化,所述多个泊松分布例如如1至5个泊松分布(例如3个泊松分布)。所使用的分布的精确数目可以至少部分地取决于用于获得签名的样品的数目和多样性。在本文中提供的实施例中,发明人使用了来自广泛多种肿瘤类型的非常大量的样品,使他们能够提供癌症中拷贝数特征行为的有细微差别的情况,导致比例如macintyre et al.,2018中所识别的分量数目更高。每个预定分布的参数(例如如高斯分布的平均值和方差,泊松分布的λ)可作为获得染色体不稳定性签名过程的一部分来确定。每个预定分布的参数(例如如高斯分布的平均值和方差,泊松分布的λ)可通过用已获得染色体不稳定性签名的多个肿瘤样品中已定量的拷贝数特征组拟合混合模型来确定。每个高斯分布组中的参数可使用变分贝叶斯高斯混合模型来获得。特别地,高斯分布的参数(例如,针对例如区段尺寸和变化点的特征)可通过使用变分推理拟合dirichlet过程高斯混合模型来获得。每个泊松分布组中的参数(例如特征,例如断裂点计数和振荡链的长度)可使用有限泊松混合模型来获得。获得分布组可包括:通过用特征分布拟合混合模型来获得原始分布组,并将满足一个或更多个相似性标准的分布组合以获得最终分布组。一个或更多个相似性标准可包括与另一分布在预定距离内的分布的平均值。预定距离可以基于其他分布的标准偏差。例如,如果第一分布的平均值在另一分布的标准偏差内,则该第一分布可以与该另一分布组合。将分布组合可包括定义组合多个原始分布的新分布。这样的新分布的平均值可以定义为组合的多个原始分布的加权平均值。这样的分布的标准偏差可以通过从组合的分布中的采样点来获得。获得分布的原始组可包括提取由拟合具有高于阈值(例如如1%)的权重的混合模型所产生的所有分布。18、基于已量化签名确定染色体不稳定性的一个或更多个签名的暴露可包括识别满足以下的e值:pbc≈exsbc,其中e是包括系数e1、…、n的大小n的向量,其中ei是签名i的暴露;pbc是大小c的向量,该向量中的每个要素表示在与拷贝数特征之一相关的跨拷贝数中的概括量度;以及sbc是大小c乘以n的矩阵,每个值表示签名i中概括量度c的权重。已通过识别sbc和e值来获得染色体不稳定性的签名,所述sbc和e值满足:pbc≈exsbc,其中e是大小n乘以p的矩阵,矩阵中的每个要素表示多个肿瘤样品之一的拷贝数谱中签名的暴露;pbc是大小c乘以p的矩阵,矩阵中的每个要素表示与拷贝数特征之一相关的概括量度,其中该概括量度是针对多个肿瘤样品之一的拷贝数谱获得的;并且sbc是大小c乘以n的矩阵,每个值表示签名i中概括量度c的权重。e和sbc的值可通过非负矩阵分解来获得。参数n可以是使用上述过程所识别的签名的数目。参数c可以是与拷贝数特征组相关的概括量度的总数目。参数p可以是用于获得满足以上等式的签名的肿瘤样品的数目。c、n中的每一个都可以≥1。p可以>1。如上所述,概括量度可包含多个肿瘤样品的拷贝数谱中特征已量化的所有拷贝数事件上的属于预定分布组中的每一个预定分布的每个特征值的后验概率之和。该预定分布组可包含c分布,其中c可以为30至50,例如如43。矩阵/向量e中的值可定义向量/矩阵sbc中所定义的签名的暴露/活性。向量/矩阵sbc的要素可定义一个或更多个签名中的每一个中的拷贝数特征的不同概括量度的相对权重。e和sbc值可通过非负矩阵分解来获得。例如,可使用本领域已知的任何非负矩阵分解算法,例如如在signatureanalyzer(kim et al.,2016,tan&fevotte,2013)中实施的算法。e和sbc值可通过以下来获得:用随机初始化进行多次非负矩阵分解以获得多个签名组,将签名数目识别为在多次中所获得的签名数目的分布模式,计算具有所识别签名数目的签名组中的所有签名之间的相似性,基于所述相似性对签名进行聚类以及基于由此获得的簇中的签名的位置选择签名组,例如如通过选择具有最高可能数目的簇中的签名的最佳解决方案。这样的方法有利地使得从非精确优化过程(由于使用有限的nmf解决方案组,例如如100、200或300个解决方案以及来自nmf迭代结果的确定性过程)的多次迭代中实现计算上有效且可重现识别的最终签名组。当使用大量样品来得到签名时,这是特别有利的,这反过来强调了本发明的方法全面捕获发生在癌症中的cin模式的能力。可以基于签名组的项pbc和项e×sbc之间的发散(divergence)来确定解决方案的最佳化。19、概括量度可包含特征已量化的所有拷贝数事件上的属于预定分布组中的每一个预定分布的每个特征值的后验概率之和,其中预定分布是由表6中的参数限定的分布,或是通过用多个肿瘤样品获得的拷贝数特征组的概括量度来拟合混合模型而获得的相应分布。签名可以是表7中限定的那些,或者通过量化多个肿瘤样品中的拷贝数特征组并识别可能产生多个肿瘤样品的拷贝数谱的一个或更多个突变签名来获得的相应签名。多个肿瘤样品可包含来自多种肿瘤类型的肿瘤样品,并且一个或更多个签名可以通过将以下组合来获得:第一签名组,其通过量化多个肿瘤样品中的拷贝数特征组并且识别可能产生多个肿瘤样品的拷贝数谱的一个或更多个突变签名来获得;以及一个或更多个另外的签名组,其通过量化对于每个另外的签名组来自相应肿瘤类型的多个肿瘤样品中的拷贝数特征组并且识别可能产生来自相应肿瘤类型的多个肿瘤样品的拷贝数谱的一个或更多个突变签名来获得。多种肿瘤类型可包含至少10种肿瘤类型、至少20种肿瘤类型、至少30种肿瘤类型或tcga数据库中表示的所有肿瘤类型,例如如33种肿瘤类型。本发明人已发现,将使用泛癌数据集所获得的第一签名组与使用癌症类型特异性数据集所获得的另外的签名组组合有利地使得能够识别这样的组合的签名组:其与通过仅在泛癌水平下提取签名将可能捕获的信号相比捕获了泛癌数据集中更多的信号。例如,该过程使得能够识别在癌症类型特异性数据(例如,在oc中发现的cx9、在esca中发现的cx10)中所识别的签名,而不是在只观察组合的癌症数据但事实上存在于比在其中签名被最初识别的癌症类型更多的癌症类型中时所识别的签名。可使用多个肿瘤样品的拷贝数谱来获得一个或更多个签名,每个肿瘤样品具有高于预定阈值的多个拷贝数变化事件。例如,可使用20个拷贝数变化事件的阈值,特别是当观察人全基因组拷贝数谱时。可通过以下来组合多个签名组:除去一个或更多个另外组中与第一组中任意签名具有高于预定阈值的相似性的签名,以及/或者除去一个或更多个另外组中与一个或更多个另外组中的另一个中任意签名具有高于预定阈值的相似性的签名,以及/或者除去一个或更多个另外组中的可以通过第一组中签名的线性组合来获得的签名。签名之间的相似性可以作为余弦相似性来获得。余弦相似性是内积空间(innerproduct space)的两个非零向量之间的相似性的量度。其等于两个向量之间角度的余弦。其也等于两个向量的内积,归一化至每个向量的长度为1。两个签名之间的余弦相似性可以计算为:其中s1和s2是大小相等的向量,其中非负分量是各自的签名。或者,两个签名之间的相似性可以作为表示签名的两个向量之间的角距离或角相似性来获得。作为另一种替代方案,两个签名之间的相似性可以作为表示签名的两个向量的l2归一化形式之间的欧几里得距离(euclidian distance)来获得。作为另一种替代方案,两个签名之间的相似性可以作为表示签名的两个向量之间的相关性来获得。用于评价签名之间的相似性的预定阈值可以基于与由第一签名组以及一个或更多个另外的签名组推导出的模拟签名相关的相似性的模拟分布来选择。例如,预定阈值可选择为所述模拟签名之间的相似性分布的0.999分位数(或0.90、0.950、0.980、0.990、第0.995分位数)。相似性的模拟分布可使用dirichlet过程从签名组中获得,优选地保持0和/或每个签名的签名分量之和为1的比例。预定阈值可选择为0.7至0.8(例如如0.74)的余弦相似性。多个签名组可在没有手动处理的情况下组合。换言之,可通过使用如上所述的客观标准除去冗余签名来组合多个签名组,而不可以使用主观标准(例如,人为签名)除去签名。本发明人已确定,本发明的方法导致识别出不包含人为签名的签名,并因此可以仅使用基于签名的相似性/线性组合的客观标准来折叠签名组(例如如使用泛癌数据集和癌症类型特异性数据集所识别的签名的组合)。20、染色体不稳定性的一个或更多个签名可包含与引起染色体不稳定性的一个或更多个过程相关的签名,并且一个或更多个签名的暴露指示样品中相应过程的存在。该方法可包括如果样品中签名的暴露高于签名特异性阈值,则确定该样品中存在签名。签名特异性阈值可使用相应签名的签名暴露的模拟背景分布来识别。一个或更多个签名可包含选自以下的一个或更多个签名:与有丝分裂过程中受损的dna损伤响应相关的一个或者更多个签名、与纺锤体组装检查点的破坏相关的一个或更多个签名、与受损的同源重组相关的一个或更多个签名、与全基因组重复的耐受性相关的一个或更多个签名、与受损的非同源末端连接相关的一个或更多个签名、与复制应激相关的一个或更多个签名、与受损的dna损伤感知相关的一个或更多个签名、以及与细胞周期控制受损相关的一个或更多个签名。该方法可包括基于签名暴露来确定样品/肿瘤是否具有引起染色体不稳定性的一个或更多个过程。例如,如果与所述过程相关的签名的暴露表明该签名存在于样品中,则可以存在引起染色体不稳定性的过程。21、签名的签名特异性阈值可使用相应签名的签名暴露的模拟背景分布来识别(或可被识别为本文中所述方法的一部分)。可以通过将噪声(例如如随机噪声,任选地限制至原始值的10%)添加至来自多个肿瘤样品的拷贝数改变事件的数目及其相关的拷贝数特征以获得多个模拟拷贝数谱,并确定模拟拷贝数谱的一个或更多个签名的暴露来获得签名暴露的模拟背景分布。通过在添加噪声之前从具有低于阈值的暴露(例如,0的暴露)的样品中确定模拟背景分布中的暴露值的分布,可使用这样的相应签名的签名暴露的模拟背景分布来识别签名的签名特异性阈值。例如,这样的分布的第95个百分位可用作签名特异性阈值。特别地,染色体不稳定性的一个或更多个签名可包含选自以下的一个或更多个签名:与染色体错误分离相关的一个或更多个签名(例如如表7中的签名cx1、cx6和/或cx14或者相应的签名)、与由有丝分裂缺陷引起的染色体错误分离相关的一个或更多个签名(例如如表7中的签名cx1,cx6和/或cx14或者相应的签名)、与受损的同源重组相关的一个或更多个签名(例如如表7中的签名cx2、cx3和/或cx5或者相应的签名)、与受损的dna损伤感知相关的一个或更多个签名(例如如表7中的签名cx3或者相应的签名)、与复制应激相关的一个或更多个签名(例如如表7中的签名cx3、cx5、cx8、cx9、cx10、cx11和/或cx13或者相应的签名)、与对全基因组重复的耐受性和/或pi3k/akt介导的全基因组重复的耐受性相关的一个或更多个签名(例如如表7中的签名cx4或者相应的签名)、与受损的nhej相关的(任选地与复制应激(例如,复制叉折叠)相关的)一个或更多个签名(例如如表7中的签名cx10或相应的签名)、以及与纺锤体组装检查点的破坏相关的一个或更多个签名(例如如表7中的签名cx14或相应的签名)。确定一个或更多个签名的暴露可包括确定表7中的所有签名或相应的签名的暴露,例如如在上面的第一方面或下面的第二方面的任何实施方案中所述的已获得的签名。因此,本文中还描述了确定引起染色体不稳定性的一个或更多个过程是否存在于肿瘤样品中的方法,该方法包括以下步骤:(a)获得样品的肿瘤拷贝数谱;(b)量化拷贝数谱的拷贝数特征组,其中拷贝数特征是在拷贝数谱中表征拷贝数事件的指标,并且其中特征组不包含拷贝数谱中的区段的绝对拷贝数;以及(c)基于已量化的特征来确定染色体不稳定性的一个或更多个签名的暴露,其中染色体不稳定性的签名已通过量化多个肿瘤样品中的拷贝数特征组,并识别可能产生多个肿瘤样品的拷贝数谱的一个或更多个突变签名来获得,并且其中一个或更多个签名包含与引起染色体不稳定性的一个或更多个过程相关的签名。确定染色体不稳定性的一个或更多个签名的暴露可包括获得一个或更多个签名中的每一个的暴露的估计值,并将每个签名的暴露归一化。归一化可包括使用样品组群中的相应签名的暴露分布的参数来对签名暴露进行换算(scale)。22、样品可从被诊断为患有癌症的对象中获得。多个肿瘤样品可包含来自多种类型的肿瘤中的一种或更多种的肿瘤样品。癌症和/或多种肿瘤类型可选自:卵巢癌、乳腺癌、子宫内膜癌、肾癌、肺癌、胰腺癌、肝癌、食管癌、胃癌、头颈癌、脑癌、结肠癌、胰腺癌、前列腺癌、膀胱癌、宫颈癌、白血病、淋巴瘤、睾丸癌、甲状腺癌、黑素瘤、肾上腺癌、肠癌、肉瘤、胸腺瘤、神经内分泌肿瘤和胆管癌。样品可以是肿瘤样品或液体活检物样品。该方法还可包括从被诊断为患有癌症的对象中获得样品、从所述样品中获得序列数据、由从所述样品中获得的序列数据确定拷贝数谱、获得匹配的种系样品、从匹配的种系样品中获得序列数据,以及向用户提供以下中的一者或更多者:所述一个或更多个签名的暴露、由此推导出的值、一个或更多个拷贝数特征所对应的值、以及引起染色体不稳定性的一个或更多个过程是否可能在所述样品中存在的确定。该方法还可包括从对象的肿瘤中获得样品。该方法还可包括从来自肿瘤的样品中获得序列数据。该方法还可包括向用户提供以下中的一者或更多者:一个或更多个签名的暴露、由此推导出的值(例如如概率得分)、一个或更多个拷贝数特征所对应的值,以及样品中是否可能存在引起染色体不稳定性的一个或更多个过程的确定。该方法还可包括从对象中获得种系样品和/或从来自对象的种系样品中获得序列数据。肿瘤样品可以是包含肿瘤细胞或来源于其的遗传物质的样品。肿瘤样品可以是已直接从肿瘤中获得的细胞或组织的样品(例如肿瘤活检物)。肿瘤样品可以是包含来源于肿瘤的细胞或遗传物质的样品,例如如包含循环肿瘤细胞或循环肿瘤dna的液体活检物样品。获得样品的拷贝数谱可包括从数据库、用户界面、计算装置等接收拷贝数谱。获得样品的拷贝数谱可包括确定来自获自肿瘤样品以及任选地匹配的种系样品的序列数据来确定拷贝数谱。序列数据可使用下一代测序或基因组阵列获得。序列数据可使用基因分型阵列、全外显子组测序、全基因组测序、单细胞测序或浅层全基因组测序获得。根据所使用的数据类型,并且特别是例如数据的分辨率,可以识别不同的分量和签名组。因此,本文中所述的精确分布和签名对本发明不是必需的,并且可以使用不同的数据来提取签名以获得相应的分布和签名(其可特别地包括更高数量的分布,特别是如果所用的数据具有更高的分辨率的话)。然而,本文中所述的方法可与能够生成拷贝数谱的任何数据一起使用。此外,本文中所述的特定分布和签名可用于分析用任何这样的数据获得的拷贝数谱,但如果拷贝数谱是从比用于获得本文中所述签名具有更高分辨率的数据中推导出,则所述特定分布和签名可能没有充分利用拷贝数谱中的分辨率。23、获得样品的肿瘤拷贝数谱可包括在多个基因组位置中的每一处获得绝对拷贝数,例如如基因组区块(可以使用任何大小的区块,例如如10、20、30、50或100kb,特别是30kb)。绝对拷贝数可以通过获得多个基因组位置中的每一处的相对拷贝数并基于相对拷贝数、样品的平均相对拷贝数,样品中的肿瘤细胞倍性和样品的肿瘤纯度来确定或可先前通过其已经确定。肿瘤纯度(样品中的肿瘤细胞%)和肿瘤细胞倍性(例如样品中肿瘤细胞的平均绝对拷贝数)可以是纯度和倍性估计值。用于估计纯度的方法是本领域已知的。肿瘤细胞倍性可以是样品中肿瘤细胞的平均绝对拷贝数。纯度和倍性值可以通过识别使多个基因组位置处所估计的绝对拷贝数和与相应绝对拷贝数最近的整数之间的差异最小化的纯度和倍性来联合估计。基因组位置的绝对拷贝数可以计算为其中acn是位置j处的绝对拷贝数,rcn是该位置处的相对拷贝数,纯度是肿瘤纯度,并且d由给出,其中r是样品的平均相对拷贝数,并且倍性是样品中肿瘤细胞的平均绝对拷贝数。24、根据第二方面,提供了表征引起在多种类型的癌症中发生的染色体不稳定性的过程的方法,该方法包括以下步骤:25、(a)获得来自多种类型的癌症中的每一种的多个肿瘤样品的肿瘤拷贝数谱;26、(b)量化拷贝数谱的拷贝数特征组,其中拷贝数特征是在拷贝数谱中表征拷贝数事件的指标,并且其中特征组不包含拷贝数谱中的区段的绝对拷贝数;以及27、(c)识别可能产生多个肿瘤样品的拷贝数谱的一个或更多个突变签名。28、该方法可具有以下任选的特征中的任一者。本方面的方法可具有涉及第一方面所描述的特征中的任一者。特别地,拷贝数特征和/或量化拷贝数特征的步骤可具有在第一方面的任何实施方案中涉及拷贝数特征及其量化所描述的特征中的任一者。一个或更多个突变签名和/或识别一个或更多个突变签名的步骤可具有第一方面的任何实施方案的特征中的任一者。该方法还可包括例如通过用户界面向用户、向计算装置、向计算机可读介质或存储器输出该方法的一个或更多个结果。一个或更多个结果可包含识别签名的信息。该信息可包含识别所用的拷贝数特征的信息(例如如已在多个肿瘤拷贝数谱中识别的拷贝数特征的多个分量/分布的参数)。该信息可包含签名中的每个概括拷贝数特征(分量)的权重。因此,本发明的方面还涉及用于识别染色体不稳定性的签名的方法,例如用于根据第一方面的方法。该方法还可包括识别引起与一个或更多个签名中的至少一个相关的染色体不稳定性的一个或更多个过程。识别引起与签名相关的染色体不稳定性的一个或更多个过程可包括分析与签名相关的拷贝数改变的模式(例如,使用概括的拷贝数特征及其在签名中的权重来识别拷贝数异常的普遍模式)。识别引起与签名相关的染色体不稳定性的一个或更多个过程可包括识别染色体不稳定性相关基因(例如如癌症驱动基因、参与dna修复、dna复制、细胞周期和/或染色质组织的基因),其突变状态与签名的暴露相关。识别突变状态与签名的暴露相关的染色体不稳定性相关基因可包括确定多个肿瘤样品中所述基因的突变状态(例如,单核苷酸变体的存在、基因中的缺失和/或扩增),以及对具有基因突变的样品和没有基因突变的样品之间的暴露差异进行测试(例如,使用针对两组之间平均值相等的统计学测试)。在对暴露的差异进行测试之前,可以对多个肿瘤样品上的特征的暴露进行中心化(centre)和换算。29、根据第三方面,提供了预测患有癌症的对象是否可能对靶向特定基因的治疗有响应的方法,该方法包括:使用第一方面的任何实施方案的方法,将从对象的肿瘤中获得的dna样品表征为具有与对抑制基因的响应相关的染色体不稳定性的一个或更多个签名的高或低的暴露,其中如果样品被表征为具有对所述签名的高暴露,则对象可能对治疗有响应。如果签名的暴露与基因扰动(例如通过遗传扰动(例如在crispr必要性筛选,也称为crispr敲除筛选中,或在rnai必要性筛选中)或通过基因的药物扰动(例如在药物响应筛选中))的作用(例如细胞增殖、生长抑制、毒性等)显著相关,则可认为染色体不稳定性的签名与对抑制基因的响应有关。签名的暴露和基因扰动作用之间的相关性可以使用kendall的τ相关性来评估。如果签名的暴露高于对基因扰动没有响应的样品组中的对签名的预期暴露,则可以认为样品具有签名的高暴露。相反,或者除此之外,如果签名的暴露低于对基因扰动有响应的样品组中的对签名的预期暴露,则可以认为样品具有签名的低暴露。或者,如果签名的暴露高于签名特异性预定阈值(例如如上所述的签名特异性预定阈值),则可以认为样品具有签名的高暴露。治疗可以是药物,例如化学治疗。该方法还可包括用靶向该基因的治疗对对象进行治疗,或者如果预测对象可能对该治疗有响应,则推荐对象用靶向该基因的治疗进行治疗。该方法还可包括用不靶向该基因的替代性治疗对对象进行治疗,或者如果预测对象不太可能对该治疗有响应,则推荐对象用不靶向该基因的替代性治疗进行治疗。30、该治疗可抑制ccnd1,并且该签名可以是与对全基因组重复的耐受性或pi3k/akt介导的全基因组重复的耐受性相关的签名(例如如表7中的cx4或相应的签名)。该治疗可抑制parp1,并且该签名可以是与受损的同源重组相关的签名(例如如表7中的cx5或相应的签名)。该治疗可抑制促有丝分裂途径中的激酶(例如egfr、jak1、met、prkca、pi3kca),并且该签名可以是与复制应激相关的签名(任选地,其中该签名还指示局灶性扩增;例如如表7中的cx9或相应的签名)。该治疗可抑制cdk4,并且该签名可以是与复制应激相关的签名(任选地,其中该签名还指示聚集性扩增,例如如表7中的cx13或相应的签名)。该治疗可以是选自表4中的药物中的任一者的治疗,或者靶向表4中的靶标中的任一者的治疗,并且该签名可以是表4中的相应的签名,如表7中所限定的,或者相应的签名。该治疗可以是靶向选自表5中的基因的治疗,并且该签名可以是表5中的相应的签名,如表7中所限定的,或者相应的签名。该治疗可以是靶向选自表8中的基因的治疗,并且该签名可以是表8中的相应的签名,如表7中所限定的,或者相应的签名。相应的签名是使用来自多个肿瘤样品的数据和拷贝数特征组所识别的签名,并且其具有与本文中所述的相应的签名相同的病因以及/或者与本文中所述的相应的签名的相同的变化模式(例如,如表3中所述的)相关以及/或者在比较新推导出的相应的签名组和本文中所述签名组时与本文中所述的相应的签名最相似。建立签名组之间的相似性可如本文中(例如在实施例2中)所述进行。如果签名的暴露与基因扰动的作用显著相关,则可认为染色体不稳定性的签名与对抑制基因的响应有关。如果签名的暴露高于对基因扰动没有响应的样品组中的对签名的预期暴露,则可以认为样品具有签名的高暴露。31、根据第四方面,提供了识别用于治疗癌症的药物靶标的方法,该方法包括使用第一方面的任何实施方案的方法表征多个dna样品,其中多个dna样品包含从肿瘤或肿瘤细胞系获得的样品,其中药物靶标已是抑制的对象并且对抑制药物靶标的响应已被量化,以及确定染色体不稳定性的一个或更多个签名是否与对抑制药物靶标的响应相关,其中与对抑制药物靶标的响应相关的染色体不稳定性签名的存在指示药物靶标可用于治疗癌症,其中所述签名是有活性的。32、如果签名的暴露与药物靶标扰动的影响(例如细胞增殖、生长抑制、毒性、药物响应曲线的auc等)显著相关,则可认为染色体不稳定性的签名与对抑制药物靶标的响应有关。签名的暴露和药物靶标扰动的影响之间的相关性可以使用kendall的τ相关性来评估。药物靶标可以是基因。药物靶标的扰动可例如通过遗传扰动获得(例如在crispr必要性筛选,也称为crispr敲除筛选中,或在rnai必要性筛选中)。多个dna样品可包含从肿瘤或肿瘤细胞系获得的样品,其中多个药物靶标已是抑制的对象并且对抑制多个药物靶标的响应已被量化。在这样的实施方案中,识别药物靶标可包括确定染色体不稳定性的一个或更多个签名是否与对抑制药物靶标中的任一者的响应有关。该方法还可包括识别并任选地提供靶向药物靶标的药物。33、本文中还描述了向已被诊断患有特定类型肿瘤的对象提供预后的方法,该方法包括:使用第一方面的任何实施方案的方法,将从所述对象的肿瘤中获得的dna样品表征为具有与特定肿瘤类型中的预后相关的染色体不稳定性的一个或更多个签名的高或低的暴露,其中具有一个或更多个签名的高或低的暴露的样品与不同的预后相关。特定类型的肿瘤可以是卵巢癌。例如,与具有所述签名的低暴露的样品相比,具有签名cx14或签名cx5(或相应的签名)的高暴露的样品可以与更差的预后相关。作为另一个实例,与具有所述签名的低暴露的样品相比,具有签名cx3、签名cx11或签名cx16(或相应的签名)的高暴露的样品可以与更好的预后相关。34、根据第五方面,提供了预测患有癌症的对象是否可能对基于铂的治疗有响应的方法,该方法包括例如使用第一方面的任何实施方案的方法,将从所述对象中的肿瘤中获得的样品表征为与受损的同源重组加复制应激、受损的损伤感知和受损的核苷酸切除修复相关的第一签名(cx3)的高或低暴露,其中如果所述样品被表征为具有所述签名的高暴露,则对象可能对基于铂的治疗有响应。相反,或者除此之外,该方法可包括使用第一方面的任何实施方案的方法,将从所述对象中的肿瘤中获得的样品表征为与受损的同源重组加复制应激相关的第一签名(cx5)的高或低暴露,其中如果所述样品被表征为具有所述签名的高暴露,则对象不太可能对基于铂的治疗有响应。与受损的同源重组加复制应激、受损的损伤感知和受损的核苷酸切除修复相关的第一签名(cx3)可以是表7中提供的签名cx3或相应的签名。与受损的同源重组加复制应激相关的第一签名(cx5)可以是表7中提供的签名cx5或相应的签名。虽然过去已经提出了在hr缺乏的样品中富集的突变签名,但本发明人已经能够更详细地表征hr缺乏的情况,并因此已识别了显示hr缺乏迹象还有强调cin的其他过程的不同类别的样品。这使他们能够开发出高性能的临床分类器,其能够做出预测,而在没有这种对肿瘤中有活性的cin过程的更细致入微的表征的情况下,这是不可能的。如果第一签名的暴露高于仅与受损的同源重组相关的第二签名(cx2)的暴露,则可认为样品具有第一签名的高暴露。如果第一签名的暴露低于仅与受损的同源重组相关的第二签名(cx2)的暴露,则可认为样品具有第一签名的低暴露。仅与受损的同源重组相关的第二签名(cx2)可以是表7中提供的签名cx2或相应的签名。如果第一签名的暴露高于仅与受损的同源重组相关的第二签名(cx2)的暴露,则可认为样品具有第一签名的高暴露。如果第一签名的暴露低于仅与受损的同源重组相关的第二签名(cx2)的暴露,则可认为样品具有第一签名的低暴露。如果第一签名的暴露高于对照样品或样品组中的第一签名的暴露,则可认为样品具有第一签名的高暴露。特别地,如果第一签名的暴露高于对基于铂的治疗具有抗性的患者组群中的第一签名的预期暴露,则可认为样品具有第一签名的高暴露。相似地,如果第一签名的暴露不高于对基于铂的治疗具有抗性的患者组群中的第一签名的预期暴露,则可认为样品具有第一签名的低暴露。或者,如果所述签名的暴露高于签名特异性预定阈值,例如如上所述的特异性预定阈值(例如,基于所述签名的签名暴露的背景分布),则可认为样品具有第一签名的高暴露。癌症可以是卵巢癌(例如高级别浆液性癌症癌)。35、根据一个相关方面,提供了预测患有癌症的对象是否可能对基于铂的治疗有响应的方法,该方法包括例如使用第一方面的任何实施方案的方法,将从所述对象中的肿瘤中获得的样品表征为与受损的同源重组加复制应激相关但不与受损的损伤感知和受损的核苷酸切除修复相关的第三签名(cx5)的高或低暴露,其中如果所述样品被表征为具有所述签名的高暴露,则对象不太可能对基于铂的治疗有响应。与受损的同源重组加复制应激相关但不与受损的损伤感知和受损的核苷酸切除修复相关的第三签名(cx5)可以是表7中提供的签名cx5或相应的签名。如果第三签名的暴露高于对基于铂的治疗具有敏感性的患者组群中的第三签名的预期暴露,则可认为样品具有第三签名的高暴露。相似地,如果第三签名的暴露不高于对基于铂的治疗具有敏感性的患者组群中的第三签名的预期暴露,则可认为样品具有第三签名的低暴露。或者,如果所述签名的暴露高于签名特异性预定阈值,例如如上所述的签名特异性预定阈值(例如,基于所述签名的签名暴露的背景分布),则可认为样品具有第二签名的高暴露。第一、第二和/或第三签名可以使用第二方面的任何实施方案的方法获得。第一、第二和/或第三签名的暴露可以被归一化,例如通过使用相应签名的预定参数进行中心化和换算。预定参数可使用合适的患者/样品组群(例如包括铂敏感和铂抗性患者的患者组群)来获得。36、根据一个相关方面,提供了预测患有癌症的对象是否可能对基于铂的治疗有响应的方法,该方法包括例如使用第一方面的任何实施方案的方法,根据其与受损的同源重组加复制应激、受损的损伤感知和受损的核苷酸切除修复相关的第一签名(cx3)的暴露、仅与受损的同源重组相关的第二签名(cx2)的暴露以及与受损的同源重组加复制应激相关但不与受损的损伤感知和受损的核苷酸切除修复相关的第三签名(cx5)的暴露来表征从所述对象中的肿瘤中获得的样品,并使用分类器在至少第一类和第二类之间分类样品,所述分类器已被训练以基于第一、第二和第三签名的暴露而在至少第一类和第二类之间对样品进行分类,其中第一类中的样品可能对基于铂的治疗有响应而第二类中的样品不太可能对基于铂的治疗有响应。分类器可以是支持向量机。37、签名可以是拷贝数签名,即来源于拷贝数谱的签名。优选地,已使用第一方面的方法获得了染色体不稳定性的签名。该方法还可包括向已被诊断为可能对基于铂的治疗有响应的对象施用基于铂的治疗。该方法可包括推荐已被诊断为可能对基于铂的治疗有响应的对象用基于铂的治疗进行治疗。该方法可包括施用替代性治疗(例如,另一种化学治疗、放射治疗等)和/或推荐对象用替代性治疗进行治疗,其中对象已被诊断为不太可能对基于铂的治疗有响应。38、根据另一个方面,提供了选择患有癌症的对象用基于铂的治疗进行治疗的方法,该方法包括根据第五方面的任何实施方案,将从对象中的肿瘤中获得的样品表征为可能对基于铂的治疗有响应,并且如果样品表征为可能对基于铂的治疗有响应,则选择对象用基于铂的治疗进行治疗。39、根据另一个方面,提供了用于在对象中治疗癌症的方法的基于铂的治疗,已从所述对象中获得dna样品,并且该dna样品通过根据第五方面的任何实施方案的方法已表征为可能对基于铂的治疗有响应。40、根据这些方面中的任一项,基于铂的治疗可以与一种或更多种治疗组合施用(或推荐用于施用一种或更多种治疗),所述一种或更多种治疗例如一种或更多种化学治疗、一个或更多个疗程的放射治疗以及/或者一种或更多种手术干预。41、根据另一个方面,提供了用于在对象中治疗癌症的方法的基于铂的治疗,该方法包括:(i)使用根据第五方面的任何实施方案的方法确定从所述对象中获得的dna样品是否可能对基于铂的治疗有响应;以及(ii)如果确定dna样品可能对基于铂的治疗有响应,则向所述对象施用基于铂的治疗。42、根据另一个方面,提供了用于在对象中治疗癌症的方法的基于铂的治疗,该方法包括:(i)使用根据本文中所述的方法确定从所述对象中获得的dna样品是否可能对基于铂的治疗有响应;以及(ii)如果确定dna样品可能对基于铂的治疗有响应,则向所述对象施用基于铂的治疗。对象可能已被诊断为患有卵巢癌或食管癌或者处于患有卵巢癌或食管癌的风险中。43、根据另一个方面,提供了系统,其包含:处理器;以及包含指令的计算机可读介质,当所述指令由处理器执行时,导致处理器执行任何前述方面的方法的(计算机实施的)步骤。44、根据另一个方面,提供了非暂态计算机可读介质或包含指令的介质,当所述指令由至少一个处理器执行时,导致至少一个处理器执行本文中所述的任何方面的任何实施方案的方法。45、根据另一个方面,提供了包含代码的计算机程序,当该代码在计算机上执行时,其导致计算机执行本文中所述的任何方面的任何实施方案的方法。46、根据另一个方面,提供了预测患有癌症的对象是否可能对靶向特定基因的治疗有响应的方法,该方法包括:将从对象的肿瘤中获得的dna样品表征为具有与对抑制基因的响应相关的染色体不稳定性的一个或更多个签名的高或低的暴露,其中如果样品被表征为具有所述签名的高暴露,则对象可能对治疗有响应。在一些实施方案中,一个或更多个签名可如本文中所限定(例如表7中限定的cx1、cx2、cx3、cx4、cx5、cx6、cx7、cx8、cx9、cx10、cx11、cx12、cx13、cx14、cx15、cx16或cx17签名)。签名可以是通过结合本发明的第一方面所限定的方法获得的或可获得的。治疗可以是选自表4中的药物的任一者的治疗,或者靶向表4中的靶标的任一者的治疗,并且签名可以是表4中的相应的签名,如表7中所限定的,或者相应的签名。治疗可以是靶向选自表5中的基因的治疗,并且签名可以是表5中的相应的签名,如表7中所限定的,或者相应的签名。治疗可以是靶向选自表8中的基因的治疗,并且签名可以是表8中的相应的签名,如表7中所限定的,或者相应的签名。相应的签名是使用来自多个肿瘤样品的数据和拷贝数特征组所已经识别的签名,并且其具有与本文中所述的相应的签名相同的病因以及/或者与本文中所述的相应的签名的相同的变化模式(例如,如表3中所述的)相关以及/或者在比较新推导出的相应的签名组和本文中所述签名组时与本文中所述的相应的签名最相似。建立签名组之间的相似性可如本文中(例如在实施例2中)所述进行。如果签名的暴露与基因扰动的作用显著相关,则可认为染色体不稳定性的签名与对基因的抑制的响应有关。如果签名的暴露高于对基因扰动没有响应的样品组中的对签名的预期暴露,则可以认为样品具有签名的高暴露。在根据本发明的该方面的一些实施方案中,治疗抑制ccnd1,并且签名是与对全基因组重复的耐受性或pi3k/akt介导的全基因组重复的耐受性相关的签名(例如如表7中的cx4或相应的签名),其中治疗抑制parp1,并且签名是与受损的同源重组相关的签名(例如如表7中的cx5或相应的签名),其中治疗抑制促有丝分裂途径中的激酶(例如egfr、jak1、met、prkca、pi3kca),并且签名是与复制应激相关的签名(任选地其中签名还指示局灶性扩增;例如如表7中的cx9或相应的签名),其中治疗抑制cdk4,并且签名是与复制应激相关的签名(任选地其中签名还指示聚集性扩增,例如如表7中的cx13或相应的签名)。

表征DNA样品的方法与流程