家居专利数据库

一种基于文档格式信息的实体关系抽取方法、装

发布日期:2024-08-21 浏览次数:

本发明涉及信息处理,尤其涉及一种基于文档格式信息的实体关系抽取方法、装置及设备。背景技术:1、在文档中存在大量实体,不同实体之间存在关联关系。对于文档进行实体关系抽取,形成结构化数据,可以形成文档的关键信息,以进行信息推送。例如,对于金融文档中的科创板招股书、私募基金合同、以及购销合同等进行信息抽取,可以便于用户快速了解文档关键信息。2、现有技术中,采用大模型算法如基于人工标注生成样本数据,并通过大模型学习文档中的实体关系,以通过大模型进行文档实体关系识别。但是,通过大模型对文档进行统一处理的方式,由于文档格式的多样性,导致模型重,对资源要求高;没有充分利用文档格式信息;并且由于大模型需要人工标注,在进行模型升级时具有较大的升级负担,且输出的实体关系不可控。技术实现思路1、本发明提供了一种基于文档格式信息的实体关系抽取方法、装置及设备,以基于文档格式信息进行零样本文档实体关系抽取,提高抽取速率。2、根据本发明的一方面,提供了一种基于文档格式信息的实体关系抽取方法,该方法包括:3、在待匹配字段中选取至少一个出发字段,并将与当前出发字段对应的未选取字段作为待抽取字段;4、获取实体匹配规则库,并根据所述出发字段与各所述待抽取字段之间的文档格式信息,在所述实体匹配规则库中确定与目标待抽取字段匹配的目标匹配规则;5、根据各所述目标匹配规则在对应的目标待抽取字段中,确定与所述出发字段中各出发实体分别匹配的目标实体,将所述出发实体与对应的各目标实体构成实体组合;6、根据所述实体组合中的实体数量,在各所述出发字段中筛选出最优出发字段,并将与所述最优出发字段对应的最优实体组合作为实体关系抽取结果。7、可选的,在获取实体匹配规则库之前,还包括:8、构建包括下述至少一项的实体匹配规则库:同行规则、同列规则、间隔规则以及顺序规则;9、其中,所述同行规则包括:在所述待抽取字段中确定与出发实体同行的所有实体、首个实体或者最接近实体为对应的目标实体;10、所述同列规则包括:在所述待抽取字段中确定与出发实体同列的所有实体、首个实体或者最接近实体为对应的目标实体;11、所述间隔规则包括:在所述待抽取字段中,确定在两个出发实体之间对应的所有实体为前者出发实体对应的目标实体;以及在所述待抽取字段中,确定在末位出发实体之后对应的所有实体为与末位出发实体对应的目标实体;12、所述顺序规则包括:在所述待抽取字段中,按顺序匹配与出发实体对应的目标实体。13、可选的,根据所述出发字段与各所述待抽取字段之间的文档格式信息,在所述实体匹配规则库中确定与目标待抽取字段匹配的目标匹配规则,包括:14、如果所述目标待抽取字段中仅存在一个待抽取实体,则将在所述待抽取字段中确定与出发实体同行或者同列的最接近实体为对应的目标实体作为目标匹配规则;15、如果所述目标待抽取字段中存在多个待抽取实体,则判断所述出发字段与所述目标待抽取字段是否满足文档表格条件;16、若是,则将同行规则或者同列规则确定为目标匹配规则;17、否则,根据所述出发字段与所述目标待抽取字段中的实体数量和/或位置信息,将间隔规则或者顺序规则确定为目标匹配规则。18、可选的,根据所述出发字段与所述目标待抽取字段中的实体数量和/或位置信息,将间隔规则或者顺序规则确定为目标匹配规则,包括:19、根据所述出发字段与所述目标待抽取字段中的实体位置,将所述出发字段与所述目标待抽取字段中,距离出发实体位置超过第一预设值的实体剔除;20、如果所述出发字段与所述目标待抽取字段的剩余实体数量满足预设数量差异条件,则将间隔规则确定为目标匹配规则;21、如果所述出发字段与所述目标待抽取字段的剩余实体数量不满足预设数量差异条件,则将所述出发字段与所述目标待抽取字段中,距离出发实体位置的实际间距值,超过平均间距值与第二预设值之和的实体剔除;22、如果所述目标待抽取字段或者出发字段的剩余实体连续,则将顺序规则确定为目标匹配规则;否则,将间隔规则确定为目标匹配规则。23、可选的,根据所述实体组合中的实体数量,在各所述出发字段中筛选出最优出发字段,包括:24、根据所述实体组合中的实体数量,构建目标函数;25、其中,所述目标函数为s=var/mean2;s为目标函数值,var为根据与所述出发字段对应的各实体组合中的实体个数确定的方差值,mean为根据与所述出发字段对应的各实体组合中的实体个数确定的均值;26、根据所述目标函数,在各所述出发字段中筛选出最优出发字段。27、可选的,根据所述目标函数,在各所述出发字段中筛选出最优出发字段,包括:28、在各所述出发字段中筛选出目标函数值满足匹配失败条件的失败出发字段,其余出发字段作为备选出发字段;29、在与各所述失败出发字段匹配的待抽取字段中,筛选出匹配率最差的备选待抽取字段;30、将各所述备选待抽取字段更新为出发字段,并返回执行确定实体组合步骤,得到与所述备选待抽取字段对应的实体组合;31、根据所述实体组合中的实体数量,在所述备选出发字段以及各所述备选待抽取字段中筛选出最优出发字段。32、可选的,根据所述实体组合中的实体数量,在所述备选出发字段以及各所述备选待抽取字段中筛选出最优出发字段,包括:33、在未达到执行迭代次数时,根据所述目标函数以及所述匹配失败条件,在所述备选出发字段以及各所述备选待抽取字段中进行字段筛选,更新失败出发字段和备选出发字段;34、返回执行在与各所述失败出发字段匹配的待抽取字段中,筛选出匹配率最差的备选待抽取字段;将各所述备选待抽取字段更新为出发字段,并返回执行确定实体组合步骤,得到与所述备选待抽取字段对应的实体组合;根据所述实体组合中的实体数量,在所述备选出发字段以及各所述备选待抽取字段中筛选出最优出发字段步骤。35、根据本发明的另一方面,提供了一种基于文档格式信息的实体关系抽取装置,该装置包括:36、出发字段选取模块,用于在待匹配字段中选取至少一个出发字段,并将与当前出发字段对应的未选取字段作为待抽取字段;37、目标匹配规则确定模块,用于获取实体匹配规则库,并根据所述出发字段与各所述待抽取字段之间的文档格式信息,在所述实体匹配规则库中确定与目标待抽取字段匹配的目标匹配规则;38、实体组合确定模块,用于根据各所述目标匹配规则在对应的目标待抽取字段中,确定与所述出发字段中各出发实体分别匹配的目标实体,将所述出发实体与对应的各目标实体构成实体组合;39、实体关系抽取结果确定模块,用于根据所述实体组合中的实体数量,在各所述出发字段中筛选出最优出发字段,并将与所述最优出发字段对应的最优实体组合作为实体关系抽取结果。40、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:41、至少一个处理器;以及42、与所述至少一个处理器通信连接的存储器;其中,43、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的基于文档格式信息的实体关系抽取方法。44、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于文档格式信息的实体关系抽取方法。45、本发明实施例的技术方案,通过在待匹配字段中选取至少一个出发字段,并将与当前出发字段对应的未选取字段作为待抽取字段;获取实体匹配规则库,并根据出发字段与各待抽取字段之间的文档格式信息,在实体匹配规则库中确定与目标待抽取字段匹配的目标匹配规则;根据各目标匹配规则在对应的目标待抽取字段中,确定与出发字段中各出发实体分别匹配的目标实体,将出发实体与对应的各目标实体构成实体组合;根据实体组合中的实体数量,在各出发字段中筛选出最优出发字段,并将与最优出发字段对应的最优实体组合作为实体关系抽取结果,解决了文档中关联实体的抽取问题,无需大模型即可实现实体关系抽取,基于文档格式的零样本抽取方案可提高抽取速率。46、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。