基于深度强化学习的智能体控制方法及系统与流
发布日期:2024-09-01 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
| 申请号: | 申请日: | ||
| 公开(公告)号: | 公开(公告)日: | ||
| 发明(设计)人: | 申请(专利权)人: | ||
| 主分类号: | 分类号: | ||
| 代理公司: | 代理人: | ||
| 地址: | 国省代码: | ||
| 权利要求书: | 说明书: | ||
| 微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
| 摘要: | 本发明涉及人工智能,具体而言,涉及一种基于深度强化学习的智能体控制方法及系统。、在计算机游戏中,尤其是多智能体环境下的电子竞技类游戏中,如何提高智能体(也即人工智能角色)的决策效率和效果是一个重要的研究课题。传统的基于规则的方法由于过于依赖预设规则和判断逻辑,无法应对复杂、动态变化的游戏环... | ||
| 相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及人工智能,具体而言,涉及一种基于深度强化学习的智能体控制方法及系统。背景技术:1、在计算机游戏中,尤其是多智能体环境下的电子竞技类游戏中,如何提高智能体(也即人工智能角色)的决策效率和效果是一个重要的研究课题。传统的基于规则的方法由于过于依赖预设规则和判断逻辑,无法应对复杂、动态变化的游戏环境。因此,借助深度学习等人工智能技术进行智能体控制的研究日益受到关注。技术实现思路1、本发明的目的在于提供一种基于深度强化学习的智能体控制方法及系统。2、第一方面,本发明实施例提供一种基于深度强化学习的智能体控制方法,包括:3、获取当前智能体的当前状态信息和多个敌对智能体的敌对状态信息,并将所述当前智能体的当前状态信息和所述多个敌对智能体的敌对状态信息输入基于多层感知机制构建的实体标量编码器,得到所述当前智能体的实体特征向量和所述多个敌对智能体各自对应的敌对特征向量;4、将所述实体特征向量和多个所述敌对特征向量输入基于注意力机制构建的目标敌人选择单元,从所述多个敌对智能体中确定出目标敌对智能体;5、获取所述当前智能体所在的游戏地图,并抽取所述当前智能体的地图编码特征;6、将所述实体特征向量、所述目标敌对智能体对应的目标敌对特征向量和所述地图编码特征输入策略网络,获取用于指示所述当前智能体是否针对所述目标敌对智能体执行射击操作的行动命令;7、基于预先设置的值函数网络获取所述行动命令的预测评估结果;8、基于预先设置的奖励函数获取所述行动命令的实际奖励结果;9、根据所述预测评估结果和所述实际奖励结果对所述策略网络进行优化调整,以利用所述优化调整后的策略网络制定所述当前智能体的行动决策。10、第二方面,本发明实施例提供一种服务器系统,包括服务器,所述服务器用于执行第一方面所述的方法。11、相比现有技术,本发明提供的有益效果包括:采用本发明公开的一种基于深度强化学习的智能体控制方法及系统,通过多层感知机制获取当前智能体及敌对智能体的状态信息,并生成特征向量。再利用注意力机制确定目标敌人。同时,获取并抽取智能体所在游戏地图的编码特征。这些特征输入策略网络,得到行动命令。然后,利用预设的值函数网络和奖励函数分别获得行动命令的预测评估结果和实际奖励结果。最后,根据这两个结果优化策略网络,以便制定更好的行动决策。如此设计,结合了深度学习和强化学习,提高了智能体的决策能力,从而增强了游戏体验。技术特征:1.基于深度强化学习的智能体控制方法,其特征在于,包括:2.根据权利要求1所述的方法,其特征在于,所述目标敌人选择单元包括级联的softmax架构和gumbel softmax sampling架构,所述将所述实体特征向量和多个所述敌对特征向量输入基于注意力机制构建的目标敌人选择单元,从所述多个敌对智能体中确定出目标敌对智能体,包括:3.根据权利要求1所述的方法,其特征在于,所述策略网络包括移动策略子网络和射击策略子网络,所述将所述实体特征向量、所述目标敌对智能体对应的目标敌对特征向量和所述地图编码特征输入策略网络,获取用于指示所述当前智能体是否针对所述目标敌对智能体执行射击操作的行动命令,包括:4.根据权利要求1所述的方法,其特征在于,所述基于预先设置的值函数网络获取所述行动命令的预测评估结果,包括:5.根据权利要求1所述的方法,其特征在于,所述基于预先设置的奖励函数获取所述行动命令的实际奖励结果,包括:6.根据权利要求1所述的方法,其特征在于,所述策略网络是通过以下方式获取的,包括:7.根据权利要求6所述的方法,其特征在于,所述根据所述游戏状态轨迹结合预设值函数网络,计算得到所述游戏状态轨迹的折扣奖励和优势值,包括:8.根据权利要求1所述的方法,其特征在于,所述方法还包括:9.根据权利要求8所述的方法,其特征在于,所述基于预先训练完成的位置预测模型根据所述连续位置坐标信息和所述当前道具交互信息,推算所述射击道具模组的每个动态节点在匹配的每个旋转轴数下,从所述当前时间点状态转移到所述当前时间点的后序时间点的参考旋转量,包括:10.一种服务器系统,其特征在于,包括服务器,所述服务器用于执行权利要求1-9中任意一项所述的方法。技术总结本发明公开了一种基于深度强化学习的智能体控制方法及系统,包括:首先,通过多层感知机制获取当前智能体及敌对智能体的状态信息,并生成特征向量。再利用注意力机制确定目标敌人。同时,获取并抽取智能体所在游戏地图的编码特征。这些特征输入策略网络,得到行动命令。然后,利用预设的值函数网络和奖励函数分别获得行动命令的预测评估结果和实际奖励结果。最后,根据这两个结果优化策略网络,以便制定更好的行动决策。如此设计,结合了深度学习和强化学习,提高了智能体的决策能力,从而增强了游戏体验。技术研发人员:崔言,周越受保护的技术使用者:北京华清飞扬网络股份有限公司技术研发日:技术公布日:2024/7/4
- 上一篇:一种静脉曲张康复训练装置
- 下一篇:模型组件的颜色处理方法、装置、存储介质和电





