图像分类模型的训练方法、图像分类识别方法及
发布日期:2024-08-21 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及图像处理,更具体地,涉及一种基于层次感知的图像分类模型的训练方法、图像分类识别方法、图像分类模型的训练装置和图像分类识别装置。、小样本(例如图像)分类学习是计算机视觉领域的关键技术之一,旨在训练样本非常有限的情况下学到新类别的特征和知识。这项技术在罕见情景、高危任务、深空探测等领... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及图像处理,更具体地,涉及一种基于层次感知的图像分类模型的训练方法、图像分类识别方法、图像分类模型的训练装置和图像分类识别装置。背景技术:1、小样本(例如图像)分类学习是计算机视觉领域的关键技术之一,旨在训练样本非常有限的情况下学到新类别的特征和知识。这项技术在罕见情景、高危任务、深空探测等领域均具有重要的应用价值。2、目前,预训练的视觉语言模型在包括图像分类等计算机视觉任务上都表现了强大的泛化能力。通过在文本模板中插入类别名,视觉语言模型即可在新的词汇环境中识别新概念。但是在众多下游任务中,由于预训练的视觉语言模型的庞大规模和训练数据的有限,微调整个模型将会导致灾难性遗忘和过拟合的问题。因此如何利用小样本数据来增强视觉语言模型并适应到下游任务仍是一大难题。技术实现思路1、有鉴于此,本发明实施例提供了一种基于层次感知的图像分类模型的训练方法、图像分类识别方法、图像分类模型的训练装置和图像分类识别装置。2、本发明实施例的一个方面提供了一种基于层次感知的图像分类模型的训练方法,包括:3、获取训练集,其中,上述训练集包括多个包含不同目标对象的图像训练样本和与每个上述图像训练样本对应的对象分类文本标签;4、针对每个上述图像训练样本,对上述图像训练样本进行编码处理,得到图像令牌,其中,上述图像令牌包括多个令牌向量;5、将上述图像令牌、视觉提示符集合、对象分类文本标签和文本提示符集合输入至第一初始编码网络,输出目标向量集合,其中,上述目标向量集合包括目标图像嵌入向量、全局视觉提示符、全局文本提示符和目标文本嵌入向量,其中,上述第一初始编码网络是根据编码器网络、基于层次化提示的聚合网络以及基于跨模态提示的交互网络构建的;6、将上述目标向量集合输入至第二初始编码网络,得到目标图像特征和目标文本特征,其中,初始分类模型包括上述第一初始编码网络和上述第二初始编码网络;7、将上述目标图像特征和上述目标文本特征输入至损失函数,得到损失结果;8、根据上述损失结果迭代地调整上述初始分类模型的网络参数,得到经训练的图像分类模型。9、根据本发明的实施例,上述第一初始编码网络包括m个初始编码网络层。10、根据本发明的实施例,将上述图像令牌、视觉提示符集合、对象分类文本标签和文本提示符集合输入至第一初始编码网络,输出目标向量集合,包括:11、针对第i初始编码网络层,将输入向量集合输入至上述第i初始编码网络层,输出输出向量集合,其中,上述输出向量集合包括上述目标向量集合或第i中间向量集合,上述第i中间向量集合包括第i图像嵌入向量、第i视觉提示符集合、第i文本提示符集合和第i文本嵌入向量,上述输入向量集合包括初始输入集合或第i-1中间向量集合,上述初始输入集合包括上述图像令牌、上述视觉提示符集合、上述对象分类文本标签和上述文本提示符集合,i≥2。12、根据本发明的实施例,在i=2的情况下,将输入向量集合输入至上述第i-1初始编码网络层,输出输出向量集合,包括:13、利用第一视觉编码器网络层处理上述图像令牌和上述视觉提示符集合,得到第一图像嵌入向量和第一初始视觉提示符集合;14、利用第一文本编码器网络层处理上述对象分类文本标签和上述文本提示符集合,得到第一文本嵌入向量和第一初始文本提示符集合;15、利用第一视觉聚合模块处理上述第一初始视觉提示符集合,得到第二初始视觉提示符集合;16、利用第一文本聚合模块处理上述第一初始文本提示符集合,得到第二初始文本提示符集合;17、利用基于注意力机制的第一交互模块处理上述第二初始视觉提示符集合和上述第二初始文本提示符集合,得到第一视觉提示符集合和第一文本提示符集合。18、根据本发明的实施例,利用第一视觉聚合模块处理上述第一初始视觉提示符集合,得到第二初始视觉提示符集合,包括:19、根据上述第一初始视觉提示符集合和预设视觉提示符集合,生成第一查询向量、第一键向量和第一值向量;20、根据上述第一查询向量和上述第一键向量,生成第一中间向量;21、根据上述第一中间向量和上述第一值向量,生成第二中间向量;22、利用第一线性层处理上述第二中间向量,生成第三中间向量;23、根据上述预设视觉提示符集合和上述第三中间向量,生成上述第二初始视觉提示符集合。24、根据本发明的实施例,利用第一文本聚合模块处理上述第一初始文本提示符集合,得到第二初始文本提示符集合,包括:25、根据上述第一初始文本提示符集合和预设文本提示符集合,生成第二查询向量、第二键向量和第二值向量;26、根据上述第二查询向量和上述第二键向量,生成第四中间向量;27、根据上述第四中间向量和上述第二值向量,生成第五中间向量;28、利用第一线性层处理上述第五中间向量,生成第六中间向量;29、根据上述预设文本提示符集合和上述第六中间向量,生成上述第二初始文本提示符集合。30、根据本发明的实施例,利用基于注意力机制的第一交互模块处理上述第二初始视觉提示符集合和上述第二初始文本提示符集合,得到第一视觉提示符集合和第一文本提示符集合,包括:31、对上述第二初始视觉提示符集合和上述第二初始文本提示符集合进行拼接处理,得到多模态提示符序列;32、利用注意力机制层处理上述多模态提示符序列,得到模态交互后的上述第一视觉提示符集合和上述第一文本提示符集合。33、根据本发明的实施例,利用注意力机制层处理上述多模态提示符序列,得到模态交互后的上述第一视觉提示符集合和上述第一文本提示符集合,包括:34、根据上述多模态提示符序列和权重集合,生成第三查询向量、第三键向量和第三值向量,其中,上述权重集合包括查询权重、键权重和值权重;35、根据上述第三查询向量、上述第三键向量和上述第三值向量,生成注意力分数;36、根据上述注意力分数、上述多模态提示符序列和上述第三值向量,生成过渡提示符序列;37、对上述过渡提示符序列进行拆分处理,得到上述第一视觉提示符集合和上述第一文本提示符集合。38、本发明实施例的另一个方面提供了一种图像分类识别方法,包括:39、获取待识别图像和至少一个图像类别信息,其中,上述待识别图像包含待识别对象;40、针对每个上述图像类别信息,将上述待识别图像和上述图像类别信息输入至图像分类模型,得到相似性得分,其中,上述相似性得分表征上述待识别对象属于上述图像类别信息的概率;41、将多个上述相似性得分中最大值对应的图像类别信息确定为上述待识别对象的目标类别信息。42、本发明实施例的另一个方面提供了一种基于层次感知的图像分类模型的训练装置,包括:43、第一获取模块,用于获取训练集,其中,上述训练集包括多个包含不同目标对象的图像训练样本和与每个上述图像训练样本对应的对象分类文本标签;44、初始编码模块,用于针对每个上述图像训练样本,对上述图像训练样本进行编码处理,得到图像令牌,其中,上述图像令牌包括多个令牌向量;45、第一编码模块,用于将上述图像令牌、视觉提示符集合、对象分类文本标签和文本提示符集合输入至第一初始编码网络,输出目标向量集合,其中,上述目标向量集合包括目标图像嵌入向量、全局视觉提示符、全局文本提示符和目标文本嵌入向量,其中,上述第一初始编码网络是根据编码器网络、基于层次化提示的聚合网络以及基于跨模态提示的交互网络构建的;46、第二编码模块,用于将上述目标向量集合输入至第二初始编码网络,得到目标图像特征和目标文本特征,其中,初始分类模型包括上述第一初始编码网络和上述第二初始编码网络;47、计算模块,用于将上述目标图像特征和上述目标文本特征输入至损失函数,得到损失结果;48、调整模块,用于根据上述损失结果迭代地调整上述初始分类模型的网络参数,得到经训练的图像分类模型。49、本发明实施例的另一个方面提供了一种图像分类识别装置,包括:50、第二获取模块,用于获取待识别图像和至少一个图像类别信息,其中,上述待识别图像包含待识别对象;51、识别模块,用于针对每个上述图像类别信息,将上述待识别图像和上述图像类别信息输入至图像分类模型,得到相似性得分,其中,上述相似性得分表征上述待识别对象属于上述图像类别信息的概率;52、确定模块,用于将多个上述相似性得分中最大值对应的图像类别信息确定为上述待识别对象的目标类别信息。53、根据本发明的实施例,通过利用基于层次化提示的聚合网络以及基于跨模态提示的交互网络构建第一初始编码网络,利用该第一初始编码网络处理图像令牌、视觉提示符集合、与图像令牌对应的对象分类文本标签和文本提示符集合,即可实现文本提示符集合和视觉提示符集合之间的深度跨模态交互,增强了图像分类模型的视觉特征和文本特征之间的对齐,以充分提高图像分类模型对未知图像分类任务的跨层和跨模态适应能力,有效提高在下游图像样本分类任务的准确率。