基于大语言模型的智能体控制方法、装置、设备
发布日期:2024-09-01 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及计算机,特别是涉及一种基于大语言模型的智能体控制方法、装置、设备及介质。、在游戏领域中,npc(non-player character,非玩家角色)是游戏中不可缺少的智能体,npc可以被控制进行社交模拟,与玩家进行交互,增强了游戏的真实感和挑战性。、相关技术中,通常是利用通用化... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及计算机,特别是涉及一种基于大语言模型的智能体控制方法、装置、设备及介质。背景技术:1、在游戏领域中,npc(non-player character,非玩家角色)是游戏中不可缺少的智能体,npc可以被控制进行社交模拟,与玩家进行交互,增强了游戏的真实感和挑战性。2、相关技术中,通常是利用通用化的、人工制作的脚本、规则,控制npc的交流反馈、表情动作、语音语调等行为进行社交模拟。3、然而,采用相关技术,玩家与npc进行交互时,npc只能通过人工制作的脚本、规则进行固定且生硬的社交模拟,无法根据其他npc或玩家等智能体的实时反馈行为进行动态调整和优化。可见,相关技术中控制npc的方式具有较高的局限性,npc的控制不够真实,从而影响玩家体验。技术实现思路1、本发明实施例的目的在于提供一种基于大语言模型的智能体控制方法、装置、设备及介质,以降低智能体控制的局限性,对智能体进行更真实的控制。具体技术方案如下:2、第一方面,本发明实施例提供了一种基于大语言模型的智能体控制方法,所述方法包括:3、当虚拟场景中的第一智能体产生目标行为时,识别第二智能体针对所述目标行为的目标评价;其中,所述第二智能体为非玩家的智能体;4、将所述目标评价、第一记忆数据以及所述第二智能体针对各其他智能体的当前的角色好感度,输入至预先训练的目标大语言模型,以使所述目标大语言模型基于所接收的目标评价、第一记忆数据和角色好感度,分析得到所述第二智能体针对所述目标行为进行反应的多个候选行为;其中,所述第一记忆数据用于表征:所述第二智能体针对各其他智能体的历史行为的情感重视程度;5、将第二记忆数据输入至所述目标大语言模型,以使所述目标大语言模型基于所接收的第二记忆数据,从所述多个候选行为中,确定所述第二智能体针对所述目标行为待进行的反应行为;其中,所述第二记忆数据用于表征:所述第二智能体针对各个目标智能体的历史行为的情感重视程度;所述各个目标智能体为与各个候选行为相关的智能体,且所述第二记忆数据中的任一目标智能体的历史行为的数量大于所述第一记忆数据中该目标智能体的历史行为的数量;6、基于所述反应行为,控制所述第二智能体对于所述目标行为进行响应。7、可选地,所述第一记忆数据中包含有:各其他智能体的历史行为以及相对应的权重系数;其中,任一历史行为对应的权重系数用于表征所述第二智能体对于该历史行为的情感重视程度;8、所述第二记忆数据中包含有:各目标智能体的历史行为以及相对应的权重系数。9、可选地,所述第二智能体针对任一其他智能体的任一历史行为对应的权重系数的生成方式,包括:10、生成该其他智能体的该历史行为对应的词嵌入向量;11、将所述词嵌入向量,输入至所述第二智能体对应的、预先训练完成的注意力机制的神经网络,以使所述神经网络基于所接收到的词嵌入向量,生成与该其他智能体的该历史行为相对应的评价向量,并基于所述评价向量,以及表征所述第二智能体的角色性格的性格向量,生成该智能体的历史行为相对应的权重系数;12、其中,与该其他智能体的该历史行为相对应的评价向量用于表征:所述第二智能体针对该其他智能体的该历史行为,分别对于各类型角色性格的重要性分数。13、可选地,所述第一记忆数据和第二记忆数据为所述第二智能体的角色记忆数据中的数据,所述第二智能体的角色记忆数据包括:各其他智能体的历史行为以及相对应的权重系数;所述方法还包括:14、针对所述第二智能体的角色记忆数据中的每一历史行为,响应于达到针对该历史行为对应的权重系数的衰减触发条件,将该历史行为对应的权重系数,按照时间进行衰减处理。15、可选地,所述将该历史行为对应的权重系数,按照时间进行衰减处理,包括:16、基于该历史行为对应的初始权重系数,以及所述第二智能体记忆该历史行为的时间,计算该历史行为对应的衰减后的权重系数;其中,任一历史行为对应的初始权重系数为:所述第二智能体的角色记忆数据中首次记录该历史行为时,所生成的该历史行为的权重系数;17、根据该历史行为对应的衰减后的权重系数,替换所述第二智能体的角色记忆数据中关于该历史行为的权重系数。18、可选地,所述方法还包括:19、响应于所述第二智能体的角色记忆数据中,存在至少一个目标历史行为;其中,每一个目标历史行为是对应的权重系数低于预定阈值的历史行为;20、将各个目标历史行为的行为数据输入目标大语言模型,以使所述目标大语言模型基于所接收到的目标历史行为的行为数据,对各个目标历史行为进行行为模糊化处理,得到待利用历史行为;21、按照预定的权重设定方式,为所述待利用历史行为设定表征所述第二智能体对所述待利用历史行为的情感重视程度的权重系数,得到所述待利用历史行为对应的权重系数;其中,所述预定的权重设定方式包括:设置为预设权重的设定方式,或者,将各个目标历史行为对应的权重系数相加的设定方式;22、将所述第二智能体的角色记忆数据中的各个目标历史行为以及相对应的权重系数,替换为所述待利用历史行为以及对应的权重系数。23、可选地,所述目标大语言模型基于所接收到的目标历史行为的行为数据,对各个目标历史行为进行行为模糊化处理,得到待利用历史行为的方式,包括:24、所述目标大语言模型以每一目标历史行为对应的、当前的权重系数作为该目标历史行为对应的模糊权重,对各个目标历史行为的行为数据进行行为模糊化处理,得到待利用历史行为。25、可选地,所述第一记忆数据具体用于表征:所述第二智能体针对第一时间范围内的其他智能体的历史行为的情感重视程度;26、所述第二记忆数据具体用于表征:所述第二智能体针对各个目标智能体在第二时间范围内的历史行为的情感重视程度;所述第二时间范围的时长大于所述第一时间范围的时长。27、可选地,所述将所述目标评价、第一记忆数据以及所述第二智能体针对各其他智能体的当前的角色好感度,输入至预先训练的目标大语言模型之前,所述方法还包括:28、若与所述目标行为相关的智能体包含有除所述第一智能体和第二智能体以外的其他智能体,将所述目标评价以及第一好感度,输入至所述目标大语言模型,以使所述目标大语言模型基于所述目标评价,对所述第一好感度进行调整;其中,所述第一好感度为所述第二智能体针对所述第一智能体的角色好感度,和/或,所述第二智能体针对所述目标行为相关的其他智能体的角色好感度;29、若与所述目标行为相关的智能体未包含有除第一智能体和第二智能体以外的其他智能体,将所述目标评价以及第二好感度,输入至所述目标大语言模型,以使所述目标大语言模型基于所述目标评价,对所述第二好感度进行调整;其中,所述第二好感度为所述第二智能体针对所述第一智能体的角色好感度。30、可选地,所述目标大语言模型还用于基于所述第二记忆数据,生成关于所述反应行为的行为解释;其中,所述反应行为的行为解释用于解释所述第二智能体执行所述反应行为的原因;31、所述基于所述反应行为,控制所述第二智能体对于所述目标行为进行响应,包括:32、控制所述第二智能体执行所述反应行为以及输出所述反应行为的行为解释,以进行对于所述目标行为的响应。33、可选地,任一其他智能体的历史行为包括:34、该其他智能体与所述第二智能体进行交互的交互行为,和/或,该其他智能体与所述第二智能体对应的关联智能体进行交互的行为。35、第二方面,本发明实施例提供了一种基于大语言模型的智能体控制装置,所述装置包括:36、识别模块,用于当虚拟场景中的第一智能体产生目标行为时,识别第二智能体针对所述目标行为的目标评价;其中,所述第二智能体为非玩家的智能体;37、第一输入模块,用于将所述目标评价、第一记忆数据以及所述第二智能体针对各其他智能体的当前的角色好感度,输入至预先训练的目标大语言模型,以使所述目标大语言模型基于所接收的目标评价、第一记忆数据和角色好感度,分析得到所述第二智能体针对所述目标行为进行反应的多个候选行为;其中,所述第一记忆数据用于表征:所述第二智能体针对各其他智能体的历史行为的情感重视程度;38、第二输入模块,用于将第二记忆数据输入至所述目标大语言模型,以使所述目标大语言模型基于所接收的第二记忆数据,从所述多个候选行为中,确定所述第二智能体针对所述目标行为待进行的反应行为;其中,所述第二记忆数据用于表征:所述第二智能体针对各个目标智能体的历史行为的情感重视程度;所述各个目标智能体为与各个候选行为相关的智能体,且所述第二记忆数据中的任一目标智能体的历史行为的数量大于所述第一记忆数据中该目标智能体的历史行为的数量;39、控制模块,用于基于所述反应行为,控制所述第二智能体对于所述目标行为进行响应。40、第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;41、存储器,用于存放计算机程序;42、处理器,用于执行存储器上所存放的程序时,实现任一所述的基于大语言模型的智能体控制方法。43、第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的基于大语言模型的智能体控制方法。44、本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的基于大语言模型的智能体控制方法。45、本发明实施例有益效果:46、本发明实施例提供的基于大语言模型的智能体控制方法,当虚拟场景中的第一智能体产生目标行为时,可以控制第二智能体针对目标行为进行反应,以实现第二智能体可以针对其他智能体的行为进行动态的反应。具体而言,可以先识别第二智能体针对目标行为的目标评价,并将目标评价、第一记忆数据以及第二智能体针对各其他智能体的当前角色好感度,输入至目标大语言模型,分析得到第二智能体针对目标行为进行反应的多个候选行为;此时多个候选行为相关有各个目标智能体,为实现对第二智能体更为真实的控制,可以将针对各个目标智能体更为详细的记忆数据,即第二记忆数据,输入至目标大语言模型,以从多个候选行为中确定反应行为,该反应行为是根据第二智能体针对各个目标智能体更为详细的第二记忆数据所确定的,因此,所得到的反应行为更加真实,可以基于反应行为,控制第二智能体对于目标行为进行响应。可见,通过本方案可以降低智能体控制的局限性,对智能体进行更真实的控制。47、当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
- 上一篇:基于大语言模型的NPC控制方法及系统、存储介质
- 下一篇:一种飞盘发射装置