基于新匹配得分和新标签注意力得分的中医证型_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

基于新匹配得分和新标签注意力得分的中医证型

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


基于新匹配得分和新标签注意力得分的中医证型
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明涉及自然语言处理,具体涉及基于新匹配得分和新标签注意力得分的中医证型辨证方法和装置。、随着人们对传统文化的深度挖掘,人们越来越相信中医药是一种天然、安全、有效的治疗方法。同时中医药也在全世界的范围内引起了巨大的反响。与西方医疗体系相似,中医行业也逐步利用计算机来提高医疗效率,这也表现...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明涉及自然语言处理,具体涉及基于新匹配得分和新标签注意力得分的中医证型辨证方法和装置。背景技术:1、随着人们对传统文化的深度挖掘,人们越来越相信中医药是一种天然、安全、有效的治疗方法。同时中医药也在全世界的范围内引起了巨大的反响。与西方医疗体系相似,中医行业也逐步利用计算机来提高医疗效率,这也表现在当今社会涌现出大批方便医师及患者的应用。在众多医疗应用中,中医证型辨证装置的发展尤为迅速,因其能帮助医师迅速的判断患者的证型,从而缩短医师对患者诊疗的时间。其中,“辨证”是指把四诊(望诊、闻诊、问诊、切诊)所收集的资料、症状和体征,通过分析、综合,辨清疾病的病因、性质、部位,以及寒热之间的关系,概括、判断为某种性质的证。将患者的临床文本输入到中医证型辨证装置中,该装置可快速分析患者可能患有的证型,从而帮助医师完成后续的用药及治疗过程。现有的中医证型辨证装置,通常根据患者电子病历中的临床文本,进行证型的预测;其忽视了患者的临床文本中不同属性的信息对于预测证型的不同贡献,难以为医师做出准确的证型预测,甚至会影响医师的判断,这一现状严重限制了中医证型辨证装置的实际应用。2、中医辨证,从机器学习的角度来看,可视为对患者电子病历文本而进行的分类预测任务。近年来,许多神经网络模型被应用于分类任务,其中使用预训练语言模型对文本进行编码随后通过各类注意力机制进行分类的方案,表现出较优的性能。其中使用匹配式注意力机制的方法,通过计算标签向量表示与临床文本向量之间的匹配得分从而进行分类。这一方案,将标签向量和临床文本向量之间的高匹配注意力得分部分,视为临床文本与标签之间更匹配的字,但这种假设显然是不严谨的。因在中医证型辨证任务中,通常将患者的证型描述文本作为标签,这导致不同证型之间的证型描述文本存在共同的文本,这一现象也导致了标签与临床文本进行匹配时的混淆问题。例如,证型“心虚神怯证”的证型描述文本:“是指……以心悸心慌、……”、证型“瘀阻肺络证”的证型描述文本:“是指瘀血内停……咯吐不利,心慌……”中均存在“心慌”这一文本。当不同患者均出现心慌这一症状时,患者的临床文本在与上述两种不同证型匹配时均易表现出较高的匹配得分。尽管中医证型辨证装置可能最终会预测正确的证型,但这降低了装置的可靠性。同时,基于预训练语言模型的方法在对文本进行编码过程中,认为患者临床文本的不同属性对中医辨证任务的作用相同,即将临床文本各个属性的文本合并后,送入预训练语言模型中进行编码。然而这种操作是不严谨的,例如患者主诉为:“突发头晕、言语不利3小时余”,在现实生活中医师仅仅依据该主诉即可率先确定患者发病位置—头部,从而大致判断患者的症状—头晕、语不利,继而判断证型—气虚血瘀证。综上所述,现有的方法无法对患者的临床文本和证型描述文本之间匹配的可靠性进行建模,同时现有中医证型辨证方法没有考虑到患者临床文本的不同属性对判断证型所起到的不同作用,因此难以取得令人满意的辨证效果。技术实现思路1、针对目前中医证型辨证方法存在的缺陷,提出了基于新匹配得分和新标签注意力得分的中医证型辨证方法和装置。一方面,充分考虑患者临床文本的不同属性对患者证型判断的不同作用;另一方面,对患者临床文本和证型描述文本之间匹配可靠性进行建模,从而帮助医师做出准确且可靠的证型预测,缩短医师的诊疗时间,提高医疗效率。本发明提出了一种用于中医证型辨证的模型结构,该模型结构充分考虑主诉文本在临床文本中的重要性,通过交互模块驱动主诉文本和临床文本进行互动融合,从而使主诉文本能够获得临床文本的全局理解。同时,考虑到临床文本在与证型描述文本匹配过程中,临床文本中词语的重要性和相对于证型描述文本的独特性,本发明设计了一个新的匹配分数,帮助模型关注于临床文本中包含的症状与证型描述文本包含的本质症状匹配,而忽略证型描述文本中出现的其余嘈杂症状,从而使得模型关注于证型所对应的本质症状。此外,考虑到不同证型之间存在相同症状问题,为更好的利用这些共有知识,本发明提出计算新标签注意力分数,帮助模型进一步理解临床文本与证型之间的关系,从而使得模型关注于证型之间的共有症状。总而言之,本发明既利用了主诉文本对于辨证的重要作用,同时也考虑到了证型的本质特征和通用特征在匹配过程中起到的不同作用。2、本发明的技术任务是按照一下方式实现,基于新匹配得分和新标签注意力得分的中医证型辨证方法,该方法的具体如下:3、s1、构建中医辨证模型训练数据集:首先对获得的临床文本进行处理,将每条临床文本分为两部分,主诉文本和其余临床文本;由临床文本及其所对应的中医证型,共同构成一条训练样本;汇集所有训练样本,构成中医辨证模型训练数据集;汇总中医辨证模型训练数据集中出现的全部证型作为证型集;4、s2、构建中医辨证模型:中医辨证模型由文档表示模块、证型表示模块、交互模块、特征匹配模块、预测模块共同组成;首先文档表示模块对主诉文本及其余临床文本进行编码分别获得主诉文本语义表示及其余临床文本深度语义表示;随后构建证型表示模块,即构建证型-定义数据库,并通过数据库查询证型的证型描述文本,对证型描述文本进行编码并拼接获得总证型语义表示;随后构建交互模块,将主诉文本语义表示与其余临床文本深度语义表示进行融合,得到交互语义表示;随后构建特征匹配模块,并使用新匹配得分子模块得到新匹配得分,使用新标签注意力子模块得到新标签注意力得分,最终将两者得分相加得到最终预测分数;最终构建预测模块,通过最大池化得到最终预测的证型;5、s3、训练中医辨证模型:使用了两个损失函数来进行模型的优化,主要步骤如下,首先通过将s205中预测证型的独热向量与真实证型的独热向量计算二元交叉熵损失,其次使用焦点损失函数来解决数据集长尾问题;利用该损失函数,在s1所构建的中医辨证模型训练数据集上,对s2所构建的中医辨证模型进行优化训练。本方法模型尚未充分训练时,需要在训练数据集上进行训练,以优化模型参数;当模型训练完毕时,模型可以为输入的临床文本预测对应的证型。6、基于新匹配得分和新标签注意力得分的中医证型辨证装置,该装置包括:中医辨证模型训练数据集构建单元、中医辨证模型构建单元、中医辨证模型训练单元;分别实现基于新匹配得分和新标签注意力得分的中医证型辨证方法中步骤s1、s2、s3的功能,每个单元的具体功能如下所述:7、中医辨证模型训练数据集构建单元,用于对输入的临床文本进行处理,具体来说,将每条临床文本分为主诉文本和其余临床文本,两者共同构成一条训练样本;为每一条临床文本分配其对应的证型,最终构建为中医辨证模型训练数据集;汇总中医辨证模型训练数据集中出现的全部证型作为证型集;8、中医辨证模型构建单元包含五个部分,文档表示模块,通过zy-bert模型获得主诉文本文本语义表示和其余临床文本语义表示,进一步通过bi-lstm得到其余临床文本深度语义表示;证型表示模块,首先构建证型-定义数据库,并通过该数据库查询每个证型对应的证型描述文本,并将证型描述文本送入zy-bert获得每个证型的证型语义表示,将证型语义表示按照行进行拼接进而得到总证型语义表示;交互模块,促进主诉文本语义表示与其余临床文本深度语义表示进行深度融合,通过交叉注意力完成这一步骤,最终得到交互语义表示;特征匹配模块,通过计算新匹配得分,帮助模型进一步关注主诉文本中包含的证型的本质特征,而忽略其他嘈杂特征,进而帮助模型关注特定症状与证型之间的对应关系;其次,计算新标签注意力得分来预测中医证型,通过新标签注意力机制强化模型对临床文本的整体理解能力,关注不同证型之间共同症状;预测模块,为每一个证型训练一个分类器,进行证型的预测;9、中医辨证模型训练单元,用来构建模型训练过程中所需的损失函数及优化函数,并最终完成模型的训练及优化。本方法模型尚未充分训练时,需要在训练数据集上进行训练,以优化模型参数;当模型训练完毕时,模型可以为输入的临床文本预测对应的证型。10、一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述的基于新匹配得分和新标签注意力的中医证型辨证方法的步骤。11、一种电子设备,所述电子设备包括:上述的存储介质;以及处理器,用于执行所述存储介质中的指令。12、本发明的基于新匹配得分和新标签注意力得分的中医证型辨证方法和装置具有以下优点:13、(1)、本发明能够快速高效地对临床文本进行处理,为后续的研究提供了新的思路;14、(2)、本发明有利于探索证型和症状之间的内在联系,提高了模型对于具有相同症状的证型的区分能力;15、(3)、本发明使用了不同的损失函数,从而缓解医疗领域中数据不平衡的问题,为现实中中医证型辨证装置的部署提供了可能;16、(4)、本发明率先探索了主诉相对中医证型辨证任务的重要作用,这为后续的研究提供了重要启发;17、(5)、本发明设计了一个新的证型-定义数据库,参考《中医证型分类与代码》文件中对证型的描述,保留证型对应的定义、典型表现、常见病症等信息作为证型描述文本,这有益于后续中医证型辨证任务的研究;18、(6)、本发明率先探索了不同字在匹配过程中不同的作用,充分考虑临床文本与标签在匹配过程中,临床文本中词语的重要性和其相对于标签的独特性,并设计了新匹配分数,帮助模型忽略嘈杂症状,关注于临床文本中包含的症状与证型的本质特征之间的匹配;19、(7)、本发明挖掘了不同证型所对应的共有症状,并设计了新标签注意力网络,帮助模型进一步理解临床文本与证型之间的关系,从而关注不同证型的共有症状;20、(8)、本发明使用自然语言处理技术依据患者临床文本分配合适的证型,大大减少了医生的工作量,也为后续患者自我健康检测提供了可能,是计算机人工智能的重要突破。

基于新匹配得分和新标签注意力得分的中医证型