基于强化学习训练对战角色的方法、装置、设备

发布日期：2024-09-02 浏览次数：次

本公开涉及人工智能，特别是涉及一种基于强化学习训练对战角色的方法、装置、设备及存储介质。背景技术：1、强化学习(reinforcement learning，rl)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。2、以足球游戏为例，足球游戏中涉及到比较复杂的智能体配合与长期规划，传统的强化学习算法很难直接在该游戏上取得不错的效果。在最近的做足球游戏的工作中，有通过从已有的回放数据中进行学习的方法，但是这种方法需要预先收集高质量的数据，而且训练出来的智能体的能力被数据的质量所限制。3、因此，需要一种不需要预先收集高质量的数据的强化学习解决方案。技术实现思路1、本公开要解决的一个技术问题是，如何设计一种不需要预先收集高质量的数据的强化学习解决方案。2、根据本公开的第一个方面，提供了一种基于强化学习训练对战角色的方法，包括：生成多个对应不同难度的训练场景；控制智能体按照由易到难的顺序在不同训练场景中进行自我对战，得到第一训练数据，其中，所述智能体用于控制一个或多个对战角色；基于所述第一训练数据训练所述智能体，其中，在当前难度的训练场景中训练得到的智能体用于作为下一难度的训练场景中进行自我对战所使用的智能体。3、可选地，该方法还包括：控制训练得到的第一智能体以第一概率与最近训练得到的第二智能体进行对战，并以第二概率与早于所述第二智能体得到的第三智能体进行对战，得到第二训练数据，其中，所述第一概率大于所述第二概率；基于所述第二训练数据训练所述第一智能体。4、可选地，该方法还包括：控制所述第一智能体基于胜率与所有过去训练得到的智能体进行对战，得到第三训练数据；基于所述第三训练数据训练所述第一智能体。5、可选地，所述第一智能体与过去训练得到的智能体进行对战的概率，与所述第一智能体对战过去训练得到的智能体的胜率负相关。6、可选地，所述智能体利用策略网络确定对战过程中当前控制的对战角色所执行的动作；所述基于所述第一训练数据训练所述智能体，包括：基于所述第一训练数据，更新价值网络；以及基于更新后的价值网络，更新所述策略网络，其中，所述策略网络用于基于第一观测信息确定所述智能体当前控制的对战角色所执行的动作，所述价值网络用于基于第二观测信息对当前状态的价值进行预测。7、可选地，所述智能体使用同一策略网络控制同一阵营中的多个对战角色；所述基于更新后的价值网络，更新所述策略网络，包括：利用所述价值网络生成对于所述智能体控制的所有对战角色一致的价值；基于所述价值利用通用优势估计算法计算总体优势价值；确定联合策略概率比率，所述联合策略概率比率用于表征所述智能体控制的所有角色的新旧策略概率比率；基于所述总体优势价值和所述联合策略概率比率，构造损失函数；以使所述损失函数减小为目标更新所述策略网络的参数。8、可选地，所述策略网络包括多组第一全连接层、第一合并模块、第一循环神经网络模块以及动作预测模块，任意一组所述第一全连接层对应一种类型的观测信息，任意一组所述第一全连接层用于对该组第一全连接层对应的观测信息进行处理，所述第一合并模块用于合并所述多组第一全连接层的输出，所述第一合并模块的输出用于作为所述第一循环神经网络模块的输入，所述动作预测模块用于基于所述第一循环神经网络模块的输出得到动作预测结果。9、可选地，所述智能体使用同一策略网络控制同一阵营中的多个对战角色，所述策略网络还包括一组第二全连接层，所述第二全连接层的输入为当前控制的对战角色的标识信息，所述动作预测模块基于所述第一循环神经网络模块的输出以及所述第二全连接层的输出得到动作预测结果。10、可选地，所述价值网络包括多组第三全连接层、第二合并模块、第二循环神经网络模块以及价值预测模块，任意一组所述第三全连接层对应一种类型的观测信息，任意一组所述第三全连接层用于对该组第三全连接层对应的观测信息进行处理，所述第二合并模块用于合并所述多组第三全连接层的输出，所述第二合并模块的输出用于作为所述第二循环神经网络模块的输入，所述价值预测模块用于基于所述第二循环神经网络模块的输出得到价值预测结果。11、可选地，该方法还包括：将所述智能体与环境交互过程中所述第一循环神经网络和/或所述第二循环神经网络产生的隐藏状态记录在经验回放缓存中；在训练所述智能体的过程中，将所述第一循环神经网络和/或所述第二循环神经网络的初始隐藏状态替换为所述经验回放缓存中记录的隐藏状态。12、可选地，该方法还包括：对所述智能体当前控制的对战角色的动作空间中的至少部分动作进行屏蔽。13、可选地，该方法还包括：基于预先设定的收益规则，对所述智能体在不同状态下的收益进行重塑。14、可选地，该方法还包括：在重置训练环境时，控制所述智能体做随机步数的决策动作。15、根据本公开的第二个方面，还提供了一种基于强化学习训练对战角色的装置，包括：生成模块，用于生成多个对应不同难度的训练场景；第一控制模块，用于控制智能体按照由易到难的顺序在不同训练场景中进行自我对战，得到第一训练数据，其中，所述智能体用于控制一个或多个对战角色；训练模块，用于基于所述第一训练数据训练所述智能体，其中，在当前难度的训练场景中训练得到的智能体用于作为下一难度的训练场景中进行自我对战所使用的智能体。16、可选地，该装置还包括：第二控制模块，用于控制训练得到的第一智能体以第一概率与最近训练得到的第二智能体进行对战，并以第二概率与早于所述第二智能体得到的第三智能体进行对战，得到第二训练数据，其中，所述第一概率大于所述第二概率，所述训练模块还基于所述第二训练数据训练所述第一智能体。17、可选地，该装置还包括：第三控制模块，用于控制所述第一智能体基于胜率与所有过去训练得到的智能体进行对战，得到第三训练数据，所述训练模块还基于所述第三训练数据训练所述第一智能体。18、可选地，所述第一智能体与过去训练得到的智能体进行对战的概率，与所述第一智能体对战过去训练得到的智能体的胜率负相关。19、可选地，所述智能体利用策略网络确定对战过程中当前控制的对战角色所执行的动作；所述训练模块基于所述第一训练数据，更新价值网络，并基于更新后的价值网络，更新所述策略网络，其中，所述策略网络用于基于第一观测信息确定所述智能体当前控制的对战角色所执行的动作，所述价值网络用于基于第二观测信息对当前状态的价值进行预测。20、可选地，所述智能体使用同一策略网络控制同一阵营中的多个对战角色；所述训练模块进一步用于：利用所述价值网络生成对于所述智能体控制的所有对战角色一致的价值；基于所述价值利用通用优势估计算法计算总体优势价值；确定联合策略概率比率，所述联合策略概率比率用于表征所述智能体控制的所有角色的新旧策略概率比率；基于所述总体优势价值和所述联合策略概率比率，构造损失函数；以使所述损失函数减小为目标更新所述策略网络的参数。21、可选地，所述策略网络包括多组第一全连接层、第一合并模块、第一循环神经网络模块以及动作预测模块，任意一组所述第一全连接层对应一种类型的观测信息，任意一组所述第一全连接层用于对该组第一全连接层对应的观测信息进行处理，所述第一合并模块用于合并所述多组第一全连接层的输出，所述第一合并模块的输出用于作为所述第一循环神经网络模块的输入，所述动作预测模块用于基于所述第一循环神经网络模块的输出得到动作预测结果。22、可选地，所述智能体使用同一策略网络控制同一阵营中的多个对战角色，所述策略网络还包括一组第二全连接层，所述第二全连接层的输入为当前控制的对战角色的标识信息，所述动作预测模块基于所述第一循环神经网络模块的输出以及所述第二全连接层的输出得到动作预测结果。23、可选地，所述价值网络包括多组第三全连接层、第二合并模块、第二循环神经网络模块以及价值预测模块，任意一组所述第三全连接层对应一种类型的观测信息，任意一组所述第三全连接层用于对该组第三全连接层对应的观测信息进行处理，所述第二合并模块用于合并所述多组第三全连接层的输出，所述第二合并模块的输出用于作为所述第二循环神经网络模块的输入，所述价值预测模块用于基于所述第二循环神经网络模块的输出得到价值预测结果。24、可选地，该装置还包括：将所述智能体与环境交互过程中所述第一循环神经网络和/或所述第二循环神经网络产生的隐藏状态记录在经验回放缓存中；在训练所述智能体的过程中，将所述第一循环神经网络和/或所述第二循环神经网络的初始隐藏状态替换为所述经验回放缓存中记录的隐藏状态。25、可选地，该装置还包括：屏蔽模块，用于对所述智能体当前控制的对战角色的动作空间中的至少部分动作进行屏蔽。26、可选地，该装置还包括：收益重塑模块，用于基于预先设定的收益规则，对所述智能体在不同状态下的收益进行重塑。27、可选地，该装置还包括：第四控制模块，用于在重置训练环境时，控制所述智能体做随机步数的决策动作。28、根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。29、根据本公开的第四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。30、由此，本公开通过控制智能体按照由易到难的顺序在不同训练场景中进行自我对战，并基于得到的训练数据训练智能体，使得智能体能够从随机初始化的网络参数开始进行学习，而无需依赖于预先收集的高质量的数据。