一种基于大语言模型的NPC交互优化方法
发布日期:2024-09-01 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及计算机数据处理,特别涉及一种基于大语言模型的npc交互优化方法。、目前,实现通过大语言模型模拟人类行为,有着极大的现实意义与应用前景。例如,交互式人类行为代理可以作为npc(non-player character,非玩家角色)出现在开放世界游戏中,为玩家带来更多的变化和贴近现实... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及计算机数据处理,特别涉及一种基于大语言模型的npc交互优化方法。背景技术:1、目前,实现通过大语言模型模拟人类行为,有着极大的现实意义与应用前景。例如,交互式人类行为代理可以作为npc(non-player character,非玩家角色)出现在开放世界游戏中,为玩家带来更多的变化和贴近现实的代入感;这些人类行为代理也可以用于进行一些由于道德伦理等多方面原因,无法在人类身上进行的心理学、社会学实验;同时,交互式人类行为代理也会成为通用人工智能的基础。因此,如何用大语言模型生成可用于交互的人类行为代理,以及如何令这些人类行为代理在交互中进化,成为了一个值得探索的课题。2、斯坦福大学的论文《generative agents: interactive simulacra of humanbehavior》,在该论文中,研究者们将生成式智能体引入一个交互式沙盒环境中(如一个小镇)。通过初始化设置小镇中的人物模型、环境变量和时间维度,这些智能体可以对自己、其他智能体和环境进行广泛的推理、在适当时行动,做出反应或重新计划。为了让智能体像真人一样对事件做出反应,研究者利用大型语言模型存储了一个框架。这一框架包括三个主要部分,分别是记忆、反思和计划。记忆模块以自然语言记录代理人经历的全面列表,将相关性、近期性和重要性相结合,以展现需要的记录,为代理人的及时行为提供信息。反思模块将记忆综合成随着时间推移逐渐提高的推理,使智能体能够在指导其行为时对自身和他人做出反思总结。计划模块将这些总结结合当前环境转化为高层次的行动计划,然后递归地转化为详细的行为和反应。最后在测试部分,可以评估代理人在角色扮演、记忆、规划、反思等方面的表现。3、在该论文给出的模拟环境中,地图以二维矩阵的形式存储。同时为了减轻模型复杂度,无法完全模拟出现实生活的最小时间单位,npc的行动以每个时间单位内的在二维矩阵中的坐标变换表示。npc总是在做出计划后以自己的路径瞬移,只有在刚好与另一个npc在同一时间出现在同一个空间内才会尝试发起交流。这使得模拟场景中的npc无法进行远程交流,也无法主动发起一次对话。无法模拟出现实生活中人们交流的方式和频率。在该论文给出的模拟环境中,仅仅定义了两人之间的交流方式,没有定义多人同时在场的情况下各npc如何给出自己的观点的处理手段。这使得模拟场景中的npc即使在多个npc同时在场的情况下也仅仅会与其中之一发起对话,无法模拟出现实生活中多人群聊的场景。4、因此,亟需一种解决办法。技术实现思路1、本发明目的之一在于提供了一种基于大语言模型的npc交互优化方法,包括:2、获取地图环境中的npc的未来行动序列;3、基于未来行动序列,确定npc当前的现实生活的最小时间单位的行动指引;4、获取npc在地图环境中的感知经历;5、基于大语言模型,根据行动指引、感知经历,确定行动指引是否执行;6、当为执行时,基于行动指引,在地图环境中对npc进行相应的移动;7、当npc之间发起远程/近程对话时,基于大语言模型,根据发起远程/近程对话的npc的感知经历,生成对话语句;8、基于所述对话语句,控制发起远程/近程对话的npc之间进行相应的对话。9、可选地所述基于大语言模型,根据行动指引、感知经历,确定行动指引是否执行,包括:10、将行动指引、感知经历输入至大语言模型中,获得第一返回结果;11、当第一返回结果为执行时,确定行动指引是执行;否则,确定行动指引是不执行。12、可选地所述基于大语言模型,根据发起远程/近程对话的npc的感知经历,生成对话语句,包括:13、获取发起远程/近程对话的npc之间的对话评判指标;14、将对话评判指标输入至大语言模型中,获得第二返回结果;15、当第二返回结果为允许对话时,将发起远程/近程对话的npc的感知经历输入至大语言模型中,获得第三返回结果;16、将第三返回结果作为对话语句。17、可选地所述对话评判指标包括:发起远程/近程对话的npc的最近一次通话时间、熟悉程度。18、可选地所述行动指引包括:行动类型、开始时间和结束时间;19、开始时间与结束时间之间的时间差为最小时间单位。20、可选地npc之间发起远程/近程对话的具体步骤如下:21、获取npc当日的模拟对话计划;22、当模拟对话计划中包含对话模拟项目时,基于对话模拟项目,确定对话对象;23、从地图环境中确定是对话对象的其他npc;24、确定npc与其他npc的当前npc状态是否均为空闲状态;25、当均为空闲状态时,确定npc与其他npc之间在地图环境中的位置距离;26、当位置距离大于等于距离阈值时,npc之间发起远程对话;27、否则,npc之间发起近程对话。28、可选地基于大语言模型的npc交互优化方法,还包括:29、对npc在地图环境中的感知经历进行实时记录。30、可选地大语言模型包括:chat-gpt模型。31、本发明取得了以下有益效果:32、确定npc当前的最小时间单位的行动指引,当基于大语言确定该行动指引可执行时,对npc进行相应移动控制,克服了现有技术中无法完全模拟出现实生活的最小时间单位导致的npc路径瞬移问题,其次,地图环境中的npc之间可以进行远程交流,npc间可以自行主动发起远程/近程对话,基于大语言丰富进行对话的npc间的对话语句,实现了多npc给出自己观点的对话模拟,真正模拟出现实生活中多人群聊的场景。33、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。34、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。技术特征:1.一种基于大语言模型的npc交互优化方法,其特征在于,包括:2.如权利要求1所述的基于大语言模型的npc交互优化方法,其特征在于,所述基于大语言模型,根据行动指引、感知经历,确定行动指引是否执行,包括:3.如权利要求1所述的基于大语言模型的npc交互优化方法,其特征在于,所述基于大语言模型,根据发起远程/近程对话的npc的感知经历,生成对话语句,包括:4.如权利要求3所述的基于大语言模型的npc交互优化方法,其特征在于,所述对话评判指标至少包括:发起远程/近程对话的npc的最近一次通话时间、熟悉程度。5.如权利要求1所述的基于大语言模型的npc交互优化方法,其特征在于,所述行动指引包括:行动类型、开始时间和结束时间;6.如权利要求1所述的基于大语言模型的npc交互优化方法,其特征在于,npc之间发起远程/近程对话的具体步骤如下:7.如权利要求1所述的基于大语言模型的npc交互优化方法,其特征在于,还包括:8.如权利要求1所述的基于大语言模型的npc交互优化方法,其特征在于,大语言模型至少包括:chat-gpt模型。技术总结本发明提供一种基于大语言模型的NPC交互优化方法,包括:获取地图环境中的NPC的未来行动序列;基于未来行动序列,确定NPC当前的最小时间单位的行动指引;获取NPC在地图环境中的感知经历;基于大语言模型,根据行动指引、感知经历,确定行动指引是否执行;当为执行时,基于行动指引,在地图环境中对NPC进行相应的移动;当NPC之间发起远程/近程对话时,基于大语言模型,根据发起远程/近程对话的NPC的感知经历,生成对话语句;基于所述对话语句,控制发起远程/近程对话的NPC之间进行相应的对话。克服了现有技术中无法完全模拟出现实生活的最小时间单位导致的NPC路径瞬移问题,实现了多NPC给出自己观点的对话模拟,真正模拟出现实生活中多人群聊的场景。技术研发人员:宋轩,彭子燊,杨浩庭,胡清畅,程鑫星,舒襄,张天阳,李威受保护的技术使用者:南方科技大学技术研发日:技术公布日:2024/7/29
- 上一篇:呼吸湿化器辅助呼吸功能锻炼器的制作方法
- 下一篇:一种具有钟表模块的玩具的制作方法