基于角色分配的异构动作表征多智能强化学习方
发布日期:2024-09-02 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及强化学习技术,尤其是基于角色分配的异构动作表征多智能强化学习方法和系统。、多智能体强化学习(multi-agent reinforcement learning, marl)作为人工智能领域的前沿研究方向,在近年来受到了广泛关注。marl能够模拟和解决现实世界中的复杂决策问题,如... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及强化学习技术,尤其是基于角色分配的异构动作表征多智能强化学习方法和系统。背景技术:1、多智能体强化学习(multi-agent reinforcement learning, marl)作为人工智能领域的前沿研究方向,在近年来受到了广泛关注。marl能够模拟和解决现实世界中的复杂决策问题,如交通管理、智能电网调度、多机器人协作、游戏互动等。例如,在交通管理中,marl可以用于优化交通信号灯控制,减少拥堵并提高道路利用率。marl为人工智能系统提供了协作学习和决策的框架,有助于开发更智能、更灵活的自主系统。在多机器人协作任务中,如协同搜救或仓库管理,marl使得机器人能够学会相互配合,提高整体效率。另外,marl为解决高维、非平稳环境下的决策问题提供了新的思路。2、当前marl的研究现状主要集中在以下几个方面:参数共享技术、集中式训练分散式执行(ctde)框架、通信机制和注意力机制等。参数共享技术是目前广泛采用的一种方法,如qmix、maven等算法都利用了这一技术来提高学习效率和泛化能力。ctde框架允许在训练阶段利用全局信息,而在执行阶段仅依赖局部观察,如coma算法就采用了这一框架。通信机制的研究旨在提高智能体之间的信息交换效率,例如ic3net算法引入了可学习的通信协议。注意力机制被用于处理智能体之间的动态关系,如atoc算法利用注意力机制来动态形成智能体子群。这些研究在一定程度上提高了marl的性能和适用性,但仍然存在一些关键问题。3、尽管marl取得了显著进展,但仍面临一些问题,比如,参数共享虽然提高了学习效率,但可能导致智能体行为同质化,无法充分利用个体差异和专业化优势。例如,在团队竞技类游戏中,所有智能体可能倾向于采取相同的策略,缺乏角色分工。另外,现有方法难以有效处理大规模多智能体系统中的维度灾难问题。当智能体数量增加时,联合动作空间呈指数级增长,导致学习效率急剧下降。在一些场景下,动态环境下的角色适应性不足。在复杂任务中,智能体可能需要动态调整其角色和行为,但现有方法缺乏有效的动态角色分配机制。此外,异构动作空间的处理仍然是一个挑战。不同智能体可能具有不同的动作空间,如何在此情况下实现有效的协作学习尚未得到很好的解决。最后,现有方法在处理长期依赖性和信用分配问题上仍有不足,特别是在需要长期规划的复杂任务中表现不佳。例如,在战略游戏中,智能体难以将最终的胜利归因于前期的关键决策。解决这些问题对于提高marl在复杂、动态、大规模环境中的性能至关重要,也是当前研究的重点方向。4、因此需要研究创新。技术实现思路1、发明目的,提供一种基于角色分配的异构动作表征多智能强化学习方法和系统,以期能够解决上述问题之一。2、技术方案,提供一种基于角色分配的异构动作表征多智能强化学习方法,包括如下步骤:3、步骤s1、通过角色向量表征学习,将所有智能体分为不同的角色组,每一个角色负责预定的子任务,同一角色的智能体共享策略网络;4、比如在游戏中,初始化参数包括包含自身信息以及敌方信息,自身信息为当前agent本身在地图中的位置、当前的血量、当前的动作数据,以向量形式存储。5、敌方信息包含敌方agent地图中的位置、当前的血量、当前的动作数据,以向量形式存储。6、将自身数据和地方数据合并成一个向量作为agent的输入;输出维度是定义好的角色数量,表示选择哪一种身份角色,角色数量为预定值。7、在异构动作信息表征模块,输入维度是agent自身接受到的敌方全部信息维度,包含敌方agent地图中的位置、当前的血量、当前的动作数据,以向量形式存储,输出维度是全部动作对应的q值,游戏中的输出维度即为11,表示6种移动动作和5种攻击不同敌人的动作,移动动作分别为上下左右、保持不动、死亡6个动作,攻击动作是当前有5个敌对目标,则有5种攻击动作。8、比如在机器人搬运任务中,角色向量表征模块网络输入维度是搬运机器人接受到的全部信息维度,包含自身信息以及所有待完成搬运货物的信息,自身信息为当前搬运机器人的位置、当前的任务、当前的动作、以及本身的搬运能力等数据,待完成搬运货物的信息有货物的位置、货物的类型、货物的重量等数据;输出维度是定义好的角色数量,表示选择哪一种身份角色,假设定义为4,分别表示搬运、分拣、装载、卸货;9、在异构动作信息表征模块,输入维度是搬运机器人接受到的待搬运货物全部信息,包含有货物的位置、货物的类型、货物的重量等数据,输出维度是全部动作对应的q值,机器人的动作包含移动动作和任务动作,移动动作有上下左右、保持不动5种状态,任务动作有抓取、搬运、放置3个动作。10、步骤s2、在每个时间步为智能体分配一个预定的角色,从智能体的历史轨迹信息中抽取出身份信息,将轨迹信息编码为用于表示其角色身份的隐式信息,利用该隐式信息判断当前智能体所属角色;11、步骤s3、在预定角色下,根据智能体角色动态决定不同对手的关注程度,利用带有异构动作表征的角色策略,根据角色动态分析对手信息,评估动作价值,从而用于为每一个智能体进行差异化策略学习。12、根据本申请的另一个方面,还提供一种基于角色分配的异构动作表征多智能体强化学习系统,包括:13、角色分配模块,用于接收预定义的角色数量和角色向量维度,生成角色独热向量,并将角色独热向量映射为角色向量表征;14、本地策略编码模块,用于获取智能体的历史轨迹信息,生成表示智能体身份的隐式信息,并基于隐式信息和角色向量表征计算智能体与各角色的匹配程度;15、目标观测编码模块,用于获取智能体对其他智能体的观测信息,并生成历史轨迹信息;16、角色解码模块,用于将角色向量表征映射为角色策略网络的参数;17、混合动作价值网络模块,包括:18、私有动作处理单元,用于基于智能体的观测信息生成私有动作表征,并计算私有动作的价值;19、交互动作处理单元,用于基于历史轨迹信息和角色策略网络参数生成交互动作表征,并计算交互动作的价值;20、全局价值估计单元,用于将所有智能体的局部动作价值映射为全局动作价值;21、参数更新模块,用于基于时序差分误差优化系统中各个网络的参数,并通过软更新方式更新目标网络。22、有益效果,针对多智能体强化学习过程中采用参数共享策略导致智能体策略同质化的问题,提供了一种高效可行的解决方案,为多智能体强化学习策略收敛提供有效助力。相关技术效果将结合具体实施例进行详细描述。技术特征:1.基于角色分配的异构动作表征多智能强化学习方法,其特征在于,包括如下步骤:2.根据权利要求1的基于角色分配的异构动作表征多智能强化学习方法,其特征在于,步骤s1具体为:3.根据权利要求1的基于角色分配的异构动作表征多智能强化学习方法,其特征在于,步骤s2具体为:4.根据权利要求1的基于角色分配的异构动作表征多智能强化学习方法,其特征在于,步骤s3具体为、5.一种基于角色分配的异构动作表征多智能体强化学习系统,其特征在于,包括:6.根据权利要求5的基于角色分配的异构动作表征多智能体强化学习系统,其特征在于,角色分配模块包括:7.根据权利要求6的基于角色分配的异构动作表征多智能体强化学习系统,其特征在于,还包括:8.根据权利要求6的基于角色分配的异构动作表征多智能体强化学习系统,其特征在于,混合动作价值网络模块中的交互动作处理单元包括:9.根据权利要求6的基于角色分配的异构动作表征多智能体强化学习系统,其特征在于,混合动作价值网络模块中的全局价值估计单元为qmix网络,用于将所有智能体的局部动作价值非线性组合为全局动作价值。10.根据权利要求6的基于角色分配的异构动作表征多智能体强化学习系统,其特征在于,参数更新模块包括:技术总结本发明公开了一种基于角色分配的异构动作表征多智能强化学习方法和系统,该方法包括通过角色向量表征学习,将所有智能体分为不同的角色组,每一个角色负责预定的子任务,同一角色的智能体共享策略网络;在每个时间步为智能体分配一个预定的角色,从智能体的历史轨迹信息中抽取出身份信息,将轨迹信息编码为用于表示其角色身份的隐式信息,利用该隐式信息判断当前智能体所属角色;在预定角色下,根据智能体角色动态决定不同对手的关注程度,利用带有异构动作表征的角色策略,根据角色动态分析对手信息,评估动作价值,从而用于为每一个智能体进行差异化策略学习。解决了多智能体强化学习过程中采用参数共享策略导致智能体策略同质化的问题。技术研发人员:刘振,周志明受保护的技术使用者:中科南京人工智能创新研究院技术研发日:技术公布日:2024/8/26
- 上一篇:一种教学用舞蹈垫的制作方法
- 下一篇:一种用于麻将机机头的叠推机构的制作方法