患者表型与基因关联表型匹配方法、装置、设备_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

患者表型与基因关联表型匹配方法、装置、设备

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


患者表型与基因关联表型匹配方法、装置、设备
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明涉及高通量测序,特别涉及患者表型与基因关联表型匹配方法、装置、设备及介质。、由于遗传变异与临床表型之间存在复杂且难以理解的关系,仅基于测序技术仍难以做出准确的临床诊断。患者表型通常定义为患者的可观察特征,如解剖学、行为和生物医学特性。表型一致性是指患者表型与基因关联表型在个体的临床症...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明涉及高通量测序,特别涉及患者表型与基因关联表型匹配方法、装置、设备及介质。背景技术:1、由于遗传变异与临床表型之间存在复杂且难以理解的关系,仅基于测序技术仍难以做出准确的临床诊断。患者表型通常定义为患者的可观察特征,如解剖学、行为和生物医学特性。表型一致性是指患者表型与基因关联表型在个体的临床症状、病情严重程度和疾病进展速度等多方面的相似性。对于医生而言,根据观察到的患者表型判断患者表型与大量疾病表型之间的表型一致性是非常复杂且耗时的任务。患者表型一致性的判断方法目前主要是依赖于人类表型本体论(human phenotype ontology,hpo)。在hpo的基础上,研究人员的主要研究方法为基于本体关联的表型一致性计算。为了充分利用临床特征或表型信息,研究人员已经建立了许多数据库来记录和重组疾病的表型数据(例如omim和orphanet)。研究人员通过表型数据库构建基因的表型集合,再借鉴了基于基因本体论的语义相似性的思想,计算患者与基因两个不同的表型集合在本体上的语义相似度。然而自然语言文本在自动提取hpo时存在信息损失,尤其是在针对相同表型的不同描述上,现有的表型提取方式很难完全的提取出医生需要的表型。hpo结构中的相邻项很难证明它们在基因水平上具有关联性或共享任何疾病症状,并且在hpo本体结构中距离很远的两个表型,也可能具有关联性。虽然上述方法被广泛用于计算表型语义相似性,但没有一种方法能充分利用表型本体信息,如表型术语的定义描述和表型注释信息。因此,基于hpo的方法在表型一致性的判别上,与人类的表型判别能力相差甚远。技术实现思路1、有鉴于此,本发明的目的在于提供一种患者表型与基因关联表型匹配方法、装置、设备及介质,能够自动的基于患者病例信息直接准确判断患者表型与基因关联表型之间的表型相似度,从大量候选的基因中筛选出医生需要的基因,从而在保持正确诊断的同时显着减少了医生的诊断时间。其具体方案如下:2、第一方面,本技术公开了一种患者表型与基因关联表型匹配方法,应用于计算机装置,包括:3、按照人类基因命名数据库中的标准基因符号与对应的基因唯一数字标识构建的映射表将多个表型数据库的不同格式的表型数据内容中的基因名映射为标准格式的基因标识符,并得到同一基因标识符关联的各个表型数据库中的表型数据内容,形成与各基因标识符分别对应的多条表型信息记录;4、将所述多条表型信息记录的表型、基因、疾病、基因变异作为图谱结构的节点,将所述基因与所述疾病的关联关系、所述基因变异与所述疾病的关联关系、所述疾病与所述表型的关联关系作为所述图谱结构的边,以基于所述节点和所述边之间的连接关系构建所述知识图谱;5、利用患者病例信息、所述知识图谱构建匹配模型的提示模板,以便训练后的匹配模型提供患者表型与基因关联表型的匹配分数,完成患者表型与基因关联表型匹配。6、可选的,所述按照人类基因命名数据库中的标准基因符号与对应的基因唯一数字标识构建的映射表将多个表型数据库的不同格式的表型数据内容中的基因名映射为标准格式的基因标识符,并得到同一基因标识符关联的各个表型数据库中的表型数据内容,形成与各基因标识符分别对应的多条表型信息记录,包括:7、对各表型数据库中的表型数据内容进行文本预处理,以得到目标数据形式下的结构化表型数据,然后将所述结构化表型数据进行数据清洗、数据缺失值和数据异常值识别,以得到目标结构化表型数据;8、按照人类基因命名数据库中的标准基因符号与对应的基因唯一数字标识构建的映射表将所述目标结构化表型数据中的基因名映射为标准格式的基因标识符,并得到与同一基因标识符关联的关联结构化表型数据,形成与各基因标识符分别对应的多条表型信息记录。9、可选的,所述对各表型数据库中的表型数据内容进行文本预处理,以得到目标数据形式下的结构化表型数据,包括:10、按照各表型数据库的网站信息格式分别抓取并解析各所述表型数据库的网页内容,以剔除html标签得到纯文本表型数据内容;11、对所述纯文本表型数据内容进行字段映射,以转换所述纯文本表型数据内容的数据结构,获取目标数据形式下的结构化表型数据。12、可选的,所述将所述多条表型信息记录的表型、基因、疾病、基因变异作为图谱结构的节点,将所述基因与所述疾病的关联关系、所述基因变异与所述疾病的关联关系、所述疾病与所述表型的关联关系作为所述图谱结构的边,以基于所述节点和所述边之间的连接关系构建所述知识图谱,包括:13、基于表型一致性的业务逻辑设计知识图谱的图谱结构,然后将所述多条表型信息记录的表型、基因、疾病、基因变异作为图谱结构的节点,将所述多条表型信息记录的表型、基因、疾病、基因变异作为图谱结构的节点,将所述基因与所述疾病的关联关系、所述基因变异与所述疾病的关联关系、所述疾病与所述表型的关联关系作为所述图谱结构的边,以得到所述图谱结构的表达形式;14、按照所述图谱结构的表达形式并通过预设图数据库创建所述多条表型信息记录的知识图谱。15、可选的,所述利用患者病例信息、所述知识图谱构建匹配模型的提示模板,包括:16、利用患者病历信息、所述知识图谱构建匹配模型的提示模板,以便所述匹配模型理解患者病历信息与基因的背景知识,用于推断患者表型和基因关联表型是否一致。17、可选的,所述利用患者病历信息、所述知识图谱构建匹配模型的提示模板,以便所述匹配模型理解患者病历信息与基因的背景知识,用于推断患者表型和基因关联表型是否一致,包括:18、按照目标基因的基因关联表型、患者的电子病例信息、分析患者表型与目标基因的基因关联表型的相似程度、相似程度打分的模板顺序内容构建匹配模型的初始提示模板;19、将所述患者病历信息、所述知识图谱中的表型信息输入到所述匹配模型,以便将所述患者病例信息和所述知识图谱填充到所述初始提示模板,得到目标提示模板,并基于所述目标提示模板辅助所述匹配模型理解患者病历信息与基因的背景知识,用于推断患者表型和基因关联表型是否一致,完成对匹配模型的训练,以得到包含用于生成提示问题的目标提示模板的训练后匹配模型。20、可选的,所述得到包含用于生成提示问题的目标提示模板的训练后匹配模型之后,还包括:21、选择历史患者电子病例信息作为评估样本,提取所述评估样本中的临床信息文本;22、将所述临床信息文本输入至所述训练后匹配模型,以便所述训练后匹配模型基于所述目标提示模板生成提问所述临床信息文本中患者表型与基因关联表型的相似程度分数的提示问题,基于所述提示问题并通过所述训练后匹配模型获取所述临床信息文本关联的基因关联表型对应的待评估分数;23、将所述待评估分数与所述评估样本的专家标准打分分数进行比较,若所述待评估分数与所述专家标准打分分数之差的绝对值满足预设差值阈值条件,则表征所述训练后匹配模型通过模型评估。24、第二方面,本技术公开了一种患者表型与基因关联表型匹配装置,包括:25、记录获取模块,用于按照人类基因命名数据库中的标准基因符号与对应的基因唯一数字标识构建的映射表将多个表型数据库的不同格式的表型数据内容中的基因名映射为标准格式的基因标识符,并得到同一基因标识符关联的各个表型数据库中的表型数据内容,形成与各基因标识符分别对应的多条表型信息记录;26、图谱构建模块,用于将所述多条表型信息记录的表型、基因、疾病、基因变异作为图谱结构的节点,将所述基因与所述疾病的关联关系、所述基因变异与所述疾病的关联关系、所述疾病与所述表型的关联关系作为所述图谱结构的边,以基于所述节点和所述边之间的连接关系构建所述知识图谱;27、表型匹配模块,用于利用患者病例信息、所述知识图谱构建匹配模型的提示模板,以便训练后的匹配模型提供患者表型与基因关联表型的匹配分数,完成患者表型与基因关联表型匹配。28、第三方面,本技术公开了一种电子设备,包括:29、存储器,用于保存计算机程序;30、处理器,用于执行所述计算机程序,以实现前述公开的患者表型与基因关联表型匹配方法的步骤。31、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的患者表型与基因关联表型匹配方法的步骤。32、可见,本技术公开了一种患者表型与基因关联表型匹配方法,应用于计算机装置,包括:按照人类基因命名数据库中的标准基因符号与对应的基因唯一数字标识构建的映射表将多个表型数据库的不同格式的表型数据内容中的基因名映射为标准格式的基因标识符,并得到同一基因标识符关联的各个表型数据库中的表型数据内容,形成与各基因标识符分别对应的多条表型信息记录;将所述多条表型信息记录的表型、基因、疾病、基因变异作为图谱结构的节点,将所述基因与所述疾病的关联关系、所述基因变异与所述疾病的关联关系、所述疾病与所述表型的关联关系作为所述图谱结构的边,以基于所述节点和所述边之间的连接关系构建所述知识图谱;利用患者病例信息、所述知识图谱构建匹配模型的提示模板,以便训练后的匹配模型提供患者表型与基因关联表型的匹配分数,完成患者表型与基因关联表型匹配。由此可见,通过将多个表型数据库的基因名映射为统一格式的基因标识符,这样一来,将多个表型数据库的基因标识符统一标准命名,然后将以标准命名的基因标识符各自关联对应的表型数据内容,构建出横跨多个表型数据库的多条表型信息记录,然后利用表型信息记录内容进一步构建知识图谱,知识图谱可以有效地囊括基因的表型信息,以便在判断患者表型与基因关联表型的表型一致性过程中,能够快速获取基因的表型一致性。这样有助于匹配模型能够完整的考虑基因的表型信息,避免传统方法仅依靠hpo带来的信息缺失,然后通过患者病例信息、知识图谱构建出提示模板,提示模板能够帮助匹配模型理解整个患者表型与基因关联表型匹配的打分需求,理解输入的背景知识,并能够控制患者表型与基因关联表型匹配打分输出的输出结果格式等。能够有效的实现表型一致性的推理,自动、高效、准确地判断患者与基因之间地表型一致性,分析和推理临床表型与已知疾病表型之间的复杂关系,从而提高疾病诊断效率。

患者表型与基因关联表型匹配方法、装置、设备