数据提取方法、电子设备及存储介质与流程_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

数据提取方法、电子设备及存储介质与流程

发布日期:2024-08-21 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


数据提取方法、电子设备及存储介质与流程
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本申请涉及数据处理,尤其涉及一种数据提取方法、电子设备及存储介质。、表格文件的工作表中的数据分布往往没有规律,例如,工作表中包括单横向数据、单纵向数据及横纵向混合数据。相关技术中的数据提取方法往往无法适应工作表中复杂的数据分布,从而导致难以对工作表中的数据进行准确以及快速提取。技术实现思路...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本申请涉及数据处理,尤其涉及一种数据提取方法、电子设备及存储介质。背景技术:1、表格文件的工作表中的数据分布往往没有规律,例如,工作表中包括单横向数据、单纵向数据及横纵向混合数据。相关技术中的数据提取方法往往无法适应工作表中复杂的数据分布,从而导致难以对工作表中的数据进行准确以及快速提取。技术实现思路1、鉴于以上内容,有必要提供一种数据提取方法、电子设备及存储介质,能够解决难以对工作表中的数据进行准确以及快速提取的技术问题。2、一方面,本申请提供一种数据提取方法,所述方法包括:获取工作表对应的关键字,并将所述关键字在所述工作表中所处的单元格确定为数据提取起始位置,基于在所述数据提取起始位置的预设方向上提取的数据,确定所述关键字在所述工作表中对应的目标数据的目标方向,根据所述工作表中所有的合并单元格的位置,生成位置列表,基于所述数据提取起始位置、所述目标方向以及所述位置列表,从所述工作表中提取所述目标数据。3、在本申请的一些实施例中,所述预设方向为多个,所述基于在所述数据提取起始位置的预设方向上提取的数据,确定所述关键字在所述工作表中对应的目标数据的目标方向包括:基于所述数据提取起始位置,依据每个预设方向提取预设数量的单元格的数据,得到所述关键字在每个预设方向对应的提取数据,根据所述关键字在每个预设方向对应的提取数据,确定所述关键字在所述工作表中是否存在对应的目标数据以及所述关键字对应的目标数据的目标方向。4、在本申请的一些实施例中,所述根据所述关键字在每个预设方向对应的提取数据,确定所述关键字在所述工作表中是否存在对应的目标数据以及所述关键字对应的目标数据的目标方向包括:若从任一个预设方向上获得预设类型的提取数据,确定所述关键字在所述工作表中存在对应的目标数据,并将所述任一个预设方向确定为所述关键字对应的目标数据的目标方向,或者,若无法从所有预设方向上获得预设类型的提取数据,确定所述关键字在所述工作表中对应的目标数据为空。5、在本申请的一些实施例中,所述基于所述数据提取起始位置、所述目标方向以及所述位置列表,从所述工作表中提取所述目标数据包括:根据所述工作表中的内容确定提取边界,基于所述位置列表、所述目标方向及所述数据提取初始位置,提取所述关键字对应的目标数据包括:在所述目标方向上对所述数据提取起始位置之后的每个单元格的数据依序进行提取,并根据所述位置列表确定当前提取的单元格是否为合并单元格,在当前提取的单元格为合并单元格时,基于所述当前提取的单元格中的目标单元格确定下一个提取位置,在所述下一个提取位置进行数据提取,直至从连续的所述预设数量的单元格提取到的数据均为空,或者,所述当前提取的单元格已到达所述提取边界,停止提取数据,并将提取到的所有数据作为所述关键字对应的目标数据。6、在本申请的一些实施例中,所述基于所述当前提取的单元格中的目标单元格确定下一个提取位置包括:根据所述目标方向确定所述当前提取的单元格中的目标单元格,并根据所述目标方向选取所述目标单元格的行标识或列标识作为第一标识,根据所述当前提取的单元格中所述目标方向上的单元格的数量、所述目标单元格中除了所述第一标识之外的另一个标识,计算第二标识,根据所述第一标识及所述第二标识确定所述下一个提取位置。7、在本申请的一些实施例中,所述第二标识计算包括:8、x=num+len-1;9、其中,x表示所述第二标识,num表示所述目标单元格中除了所述第一标识之外的另一个标识,len表示所述当前提取的单元格中所述目标方向上的单元格的数量。10、在本申请的一些实施例中,所述方法还包括:根据所述关键字及所述目标数据,生成结构化数据文件。11、在本申请的一些实施例中,所述根据所述工作表中所有的合并单元格的位置,生成位置列表包括:调用多单元格范围函数获取所述工作表中的合并单元格列表,基于对所述合并单元格列表的遍历,确定每个合并单元格的起始行标识、起始列标识、终止行标识及终止列标识,根据每个合并单元格的起始行标识、起始列标识、终止行标识及终止列标识生成字典形式的所述位置列表,所述位置列表包括每个合并单元格中每个单元格的行标识及列标识。12、另一方面,本申请提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述至少一个指令以实现所述的数据提取方法。13、另一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行时实现所述的数据提取方法。14、通过上述实施方式,在关键字对应的数据提取起始位置的预设方向上提取数据,并通过确定提取的数据的数据类型,能够快速地确定目标数据所在的目标方向。由于在合并单元格中,只有第一个单元格包括数据,其余的单元格通常为空,因此,通过位置列表提取目标数据,能够避免对合并单元格中空的单元格进行数据提取,因此提高数据的提取速度。通过数据提取起始位置以及目标方向能够准确地对各类分布(比如横向合并、纵向合并以及横纵向合并)的数据进行准确提取。由于能够提高数据的提取速度以及能够对各类分布的数据进行准确提取,因此能够提高数据的提取效率。技术特征:1.一种数据提取方法,其特征在于,所述方法包括:2.如权利要求1所述的数据提取方法,其特征在于,所述预设方向为多个,所述基于在所述数据提取起始位置的预设方向上提取的数据,确定所述关键字在所述工作表中对应的目标数据的目标方向包括:3.如权利要求2所述的数据提取方法,其特征在于,所述根据所述关键字在每个预设方向对应的提取数据,确定所述关键字在所述工作表中是否存在对应的目标数据以及所述关键字对应的目标数据的目标方向包括:4.如权利要求1所述的数据提取方法,其特征在于,所述基于所述数据提取起始位置、所述目标方向以及所述位置列表,从所述工作表中提取所述目标数据包括:5.如权利要求4所述的数据提取方法,其特征在于,所述基于所述当前提取的单元格中的目标单元格确定下一个提取位置包括:6.如权利要求5所述的数据提取方法,其特征在于,所述第二标识计算包括:7.如权利要求1所述的数据提取方法,其特征在于,所述方法还包括:8.如权利要求1所述的数据提取方法,其特征在于,所述根据所述工作表中所有的合并单元格的位置,生成位置列表包括:9.一种电子设备,其特征在于,所述电子设备包括:10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行时实现如权利要求1至8中任意一项所述的数据提取方法。技术总结本申请提供一种数据提取方法、电子设备及存储介质。所述方法包括:获取工作表对应的关键字,并将所述关键字在所述工作表中所处的单元格确定为数据提取起始位置;基于在所述数据提取起始位置的预设方向上提取的数据,确定所述关键字在所述工作表中对应的目标数据的目标方向;根据所述工作表中所有的合并单元格的位置,生成位置列表;基于所述数据提取起始位置、所述目标方向以及所述位置列表,从所述工作表中提取所述目标数据。利用上述方法,能够提高数据的提取效率。技术研发人员:李贺,吴振廷,张洪伟,张继兴,王姗姗,芈绍桂,苏童受保护的技术使用者:富联裕展科技(深圳)有限公司技术研发日:技术公布日:2024/8/16

数据提取方法、电子设备及存储介质与流程