模型量化方法及装置、电子设备和存储介质与流_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

模型量化方法及装置、电子设备和存储介质与流

发布日期:2024-08-21 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


模型量化方法及装置、电子设备和存储介质与流
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本公开涉及计算机,尤其涉及一种模型量化方法及装置、电子设备和存储介质。、随着人工智能技术的不断发展,人工智能相关的模型结构也被设计的越来越复杂,对应的模型的权重参数越来越庞大,模型的推理的时间越来越长,对硬件设备的算力要求也越来越高,这给硬件设备带来了更大的挑战。相关技术中的量化方法难以保...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本公开涉及计算机,尤其涉及一种模型量化方法及装置、电子设备和存储介质。背景技术:1、随着人工智能技术的不断发展,人工智能相关的模型结构也被设计的越来越复杂,对应的模型的权重参数越来越庞大,模型的推理的时间越来越长,对硬件设备的算力要求也越来越高,这给硬件设备带来了更大的挑战。相关技术中的量化方法难以保证模型精度,如何在算力有限的硬件设备上,既满足模型精度又不降低模型推理速度,会变得越来越重要。技术实现思路1、本公开提出了一种模型量化技术方案。2、根据本公开的一方面,提供了一种模型量化方法,包括:获取待量化模型,所述待量化模型包括至少一个待量化层;确定所述待量化模型的至少一个待量化层对应的初始的超参数,所述超参数表示所述待量化层的权重矩阵中共用同一量化参数的权重元素数量,所述量化参数用于将高精度表示的权重矩阵转换为低精度的表示形式;根据校准数据集,调整所述待量化模型中每个待量化层的超参数;根据调整后的每个待量化层的超参数,对所述待量化模型进行量化处理,得到目标量化模型。3、在一种可能的实现方式中,所述待量化模型中任一待量化层的超参数的调整过程包括:针对校准数据集中的第1~t个校准数据,执行以下步骤:根据第i个校准数据与所述待量化层的权重矩阵,确定第一结果,i为小于等于t的正整数;根据校准数据集中的第i个校准数据与所述待量化层的量化权重矩阵,确定第二结果,所述量化权重矩阵是由预设的量化位数、第i-1次调整后的超参数、所述待量化层的权重矩阵确定的;根据所述第一结果和所述第二结果的偏差,确定第三结果;根据所述第三结果调整所述第i-1次调整后的超参数,得到第i次调整后的超参数,其中,第t次调整后的超参数为调整后的所述待量化层的超参数。4、在一种可能的实现方式中,根据所述第三结果调整所述第i-1次调整后的超参数,得到第i次调整后的超参数,包括:在所述第三结果大于第一预设阈值的情况下,对第i-1次调整后的超参数自减预设数值,得到第i次调整后的超参数;在所述第三结果小于第二预设阈值的情况下,对第i-1次调整后的超参数自加所述预设数值,得到第i次调整后的超参数;在所述第三结果小于等于所述第一预设阈值且大于等于所述第二预设阈值的情况下,将第i-1次调整后的超参数作为第i次调整后的超参数。5、在一种可能的实现方式中,根据校准数据集中的第i个校准数据与所述待量化层的量化权重矩阵,确定第二结果,包括:根据第i-1次调整后的超参数对所述待量化层的权重矩阵进行分块处理,得到至少一个分块矩阵;根据预设的量化位数分别对每个分块矩阵进行量化处理,得到与每个分块矩阵对应的分块量化矩阵;对每个分块量化矩阵进行拼接,得到量化权重矩阵;根据校准数据集中的第i个校准数据与所述量化权重矩阵,确定第二结果。6、在一种可能的实现方式中,根据预设的量化位数分别对每个分块矩阵进行量化处理,得到与每个分块矩阵对应的分块量化矩阵,包括:根据预设的量化位数、每个所述分块矩阵的最大值和最小值,确定每个分块矩阵的量化参数;根据每个分块矩阵的量化参数对所述分块矩阵进行量化处理,得到与每个分块矩阵对应的分块量化矩阵。7、在一种可能的实现方式中,所述待量化层包括线性层,所述量化参数包括来自第一矩阵的第一参数,来自第二矩阵的第二参数,以及来自第三矩阵的第三参数,所述第一矩阵、所述第二矩阵、所述第三矩阵的尺寸相同且基于所述权重矩阵的尺寸和所述超参数确定;其中,在所述超参数的值为k的情况下,表示所述待量化层的权重矩阵中共用同一量化参数的权重元素数量为k个,所述第三矩阵中任一位置的第三参数,用于表示权重矩阵中共用所述第一矩阵中相同位置的第一参数、所述第二矩阵中相同位置的第二参数的k个权重元素的位置索引,所述第一矩阵中相同位置的第一参数用于表征所述k个权重元素的缩放比例,所述第二矩阵中相同位置的第二参数用于表征所述k个权重元素的零点位置,k大于等于1并且小于等于权重矩阵中权重元素总量。8、在一种可能的实现方式中,所述校准数据集与目标任务相匹配,所述目标任务包括图像分类、目标检测、图像分割、语音识别中至少一种,所述方法还包括:将与所述目标任务对应的待处理数据输入所述目标量化模型中处理,得到处理结果,其中,所述待处理数据包括与所述目标任务的任务类型相匹配的图像数据、语音数据、文本数据中的至少一种。9、根据本公开的一方面,提供了一种模型量化装置,包括:获取模块,用于获取待量化模型,所述待量化模型包括至少一个待量化层;确定模块,用于确定所述待量化模型的至少一个待量化层对应的初始的超参数,所述超参数表示所述待量化层的权重矩阵中共用同一量化参数的权重元素数量,所述量化参数用于将高精度表示的权重矩阵转换为低精度的表示形式;调整模块,用于根据校准数据集,调整所述待量化模型中每个待量化层的超参数;量化模块,用于根据调整后的每个待量化层的超参数,对所述待量化模型进行量化处理,得到目标量化模型。10、在一种可能的实现方式中,所述调整模块用于:针对校准数据集中的第1~t个校准数据,执行以下步骤:根据第i个校准数据与所述待量化层的权重矩阵,确定第一结果,i为小于等于t的正整数;根据校准数据集中的第i个校准数据与所述待量化层的量化权重矩阵,确定第二结果,所述量化权重矩阵是由预设的量化位数、第i-1次调整后的超参数、所述待量化层的权重矩阵确定的;根据所述第一结果和所述第二结果的偏差,确定第三结果;根据所述第三结果调整所述第i-1次调整后的超参数,得到第i次调整后的超参数,其中,第t次调整后的超参数为调整后的所述待量化层的超参数。11、在一种可能的实现方式中,根据所述第三结果调整所述第i-1次调整后的超参数,得到第i次调整后的超参数,包括:在所述第三结果大于第一预设阈值的情况下,对第i-1次调整后的超参数自减预设数值,得到第i次调整后的超参数;在所述第三结果小于第二预设阈值的情况下,对第i-1次调整后的超参数自加所述预设数值,得到第i次调整后的超参数;在所述第三结果小于等于所述第一预设阈值且大于等于所述第二预设阈值的情况下,将第i-1次调整后的超参数作为第i次调整后的超参数。12、在一种可能的实现方式中,根据校准数据集中的第i个校准数据与所述待量化层的量化权重矩阵,确定第二结果,包括:根据第i-1次调整后的超参数对所述待量化层的权重矩阵进行分块处理,得到至少一个分块矩阵;根据预设的量化位数分别对每个分块矩阵进行量化处理,得到与每个分块矩阵对应的分块量化矩阵;对每个分块量化矩阵进行拼接,得到量化权重矩阵;根据校准数据集中的第i个校准数据与所述量化权重矩阵,确定第二结果。13、在一种可能的实现方式中,根据预设的量化位数分别对每个分块矩阵进行量化处理,得到与每个分块矩阵对应的分块量化矩阵,包括:根据预设的量化位数、每个所述分块矩阵的最大值和最小值,确定每个分块矩阵的量化参数;根据每个分块矩阵的量化参数对所述分块矩阵进行量化处理,得到与每个分块矩阵对应的分块量化矩阵。14、在一种可能的实现方式中,所述待量化层包括线性层,所述量化参数包括来自第一矩阵的第一参数,来自第二矩阵的第二参数,以及来自第三矩阵的第三参数,所述第一矩阵、所述第二矩阵、所述第三矩阵的尺寸相同且基于所述权重矩阵的尺寸和所述超参数确定;其中,在所述超参数的值为k的情况下,表示所述待量化层的权重矩阵中共用同一量化参数的权重元素数量为k个,所述第三矩阵中任一位置的第三参数,用于表示权重矩阵中共用所述第一矩阵中相同位置的第一参数、所述第二矩阵中相同位置的第二参数的k个权重元素的位置索引,所述第一矩阵中相同位置的第一参数用于表征所述k个权重元素的缩放比例,所述第二矩阵中相同位置的第二参数用于表征所述k个权重元素的零点位置,k大于等于1并且小于等于权重矩阵中权重元素总量。15、在一种可能的实现方式中,所述校准数据集与目标任务相匹配,所述目标任务包括图像分类、目标检测、图像分割、语音识别中至少一种,所述装置还包括处理模块,用于:将与所述目标任务对应的待处理数据输入所述目标量化模型中处理,得到处理结果,其中,所述待处理数据包括与所述目标任务的任务类型相匹配的图像数据、语音数据、文本数据中的至少一种。16、根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。17、根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。18、在本公开实施例中,可获取待量化模型,所述待量化模型包括至少一个待量化层;确定所述待量化模型的至少一个待量化层对应的初始的超参数,所述超参数表示所述待量化层的权重矩阵中共用同一量化参数的权重元素数量,所述量化参数用于将高精度表示的权重矩阵转换为低精度的表示形式;根据校准数据集,调整所述待量化模型中每个待量化层的超参数;根据调整后的每个待量化层的超参数,对所述待量化模型进行量化处理,得到目标量化模型。通过这种方式,可以通过设置初始的超参数,使得待量化的权重矩阵中多个权重元素共享一个量化参数,并利用校准数据集中不同的校准数据自适应调整超参数,有利于使调整后的超参数自动适应不同的待量化模型、不同的校准数据集,从而基于调整后的超参数得到的目标量化模型,在推理过程中可以展现出更高的效率和精确度。19、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

模型量化方法及装置、电子设备和存储介质与流