发布日期:2024-09-02 浏览次数:次
本技术涉及计算机,尤其涉及一种智能体的训练方法、游戏中虚拟角色的控制方法、及其装置、游戏智能体、电子设备、以及计算机可读存储介质。背景技术:1、随着计算机技术的发展,游戏的种类越来越多,规模也越来越大,为了节约玩家的开局等待时间,往往会在游戏对局中投放一定数量的智能体,以取代缺失玩家参与游戏对局。2、目前,智能体大多依赖于规则学习,由于规则的设计逻辑较为直接,基于规则学习的智能体普遍存在反应僵硬,无法在游戏对局中做出拟人化的灵活动作,容易被玩家识别的缺陷。强化学习和监督学习从理论层面上能够获得强度较高的智能体,但因模型自身训练周期长、资源消耗大,也存在难以落地的缺陷。3、因此,现有技术存在因各学习方法的自身缺陷,导致智能体拟人化程度弱、容易被玩家识别,较高强度的智能体难以落地的技术问题。技术实现思路1、本技术提供了一种智能体的训练方法、游戏中虚拟角色的控制方法、及其装置、游戏智能体、电子设备、以及计算机可读存储介质,以解决现有技术存在的因各学习方法的自身缺陷,导致智能体拟人化程度弱、容易被玩家识别,较高强度的智能体难以落地的技术问题。2、第一方面,本技术实施例提供了一种智能体的训练方法,所述智能体包括分层状态机和对应于所述分层状态机的至少一个监督模型,所述分层状态机用于分层管理受控虚拟角色在游戏对局中的多个交互状态,以实现所述受控虚拟角色在所述多个交互状态间的状态转换,所述监督模型用于对所述状态转换的转换概率进行预测,所述受控虚拟角色为所述游戏对局中受控于所述智能体的虚拟角色,所述方法包括:获取历史游戏对局的每一个游戏时刻对应的游戏数据,所述游戏数据至少包括第一数据、第二数据、以及第三数据,所述第一数据用于表征第一虚拟角色对应的玩家在所述历史游戏对局中的属性信息,所述第二数据用于表征所述第一虚拟角色在每一个所述游戏时刻下的状态信息,所述第三数据用于表征第二虚拟角色在每一个所述游戏时刻下的状态信息,所述历史游戏对局包括多个虚拟角色,所述第一虚拟角色为所述多个虚拟角色中符合所述智能体类型的任意一个,所述第二虚拟角色为所述多个虚拟角色中除所述第一虚拟角色以外的至少一个虚拟角色;根据每一个所述游戏时刻对应的所述游戏数据,生成训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本至少包括所述游戏数据对应的所述第一数据、所述第二数据、所述第三数据、以及第一状态标签和第二状态标签,所述第一状态标签用于表征所述第一虚拟角色在所述游戏数据对应的游戏时刻下的第一交互状态,所述第二状态标签用于表征所述第一虚拟角色在所述游戏数据对应的下一游戏时刻下的第二交互状态;基于所述训练样本集对所述监督模型进行训练,以使所述监督模型输出针对所述第二状态标签的预测概率,以所述预测概率作为所述第一虚拟角色从所述第一交互状态转换为所述第二交互状态的转换概率。3、第二方面,本技术实施例提供了一种游戏中虚拟角色的控制方法,游戏对局中包括多个虚拟角色,所述多个虚拟角色中至少包括一个受控于智能体的第三虚拟角色,所述智能体包括分层状态机和对应于所述分层状态机的至少一个监督模型,所述分层状态机用于分层管理所述第三虚拟角色在所述游戏对局中的多个交互状态,以实现所述第三虚拟角色在所述多个交互状态间的状态转换,所述监督模型用于对所述状态转换的转换概率进行预测,所述方法包括:获取当前游戏时刻对应的游戏数据,所述游戏数据至少包括第四数据、第五数据、以及第六数据,所述第四数据用于表征所述智能体在所述游戏对局中的属性信息,所述第五数据用于表征所述第三虚拟角色在当前游戏时刻下的状态信息,所述第六数据用于表征第四虚拟角色在当前游戏时刻下状态信息,所述第四虚拟角色为所述多个虚拟角色中除所述第三虚拟角色以外的至少一个虚拟角色;基于所述分层状态机和所述监督模型,根据所述游戏数据,确定所述第三虚拟角色的待转换状态,其中,所述监督模型为根据智能体的训练方法训练获得的;4、根据所述待转换状态,控制所述第三虚拟角色在所述当前游戏时刻的下一游戏时刻执行第一虚拟动作,所述第一虚拟动作为所述待转换状态指示的虚拟动作。5、第三方面,本技术实施例提供了一种游戏智能体,所述游戏智能体包括分层状态机和对应于所述分层状态机的至少一个监督模型;所述分层状态机,用于分层管理受控虚拟角色在游戏对局中的多个交互状态,以实现所述受控虚拟角色在所述多个交互状态间的状态转换,所述受控虚拟角色为所述游戏对局中受控于所述智能体的虚拟角色;所述监督模型,用于对所述状态转换的转换概率进行预测,为根据智能体的训练方法训练获得的。6、第四方面,本技术实施例提供了一种智能体的训练装置,所述智能体包括分层状态机和对应于所述分层状态机的至少一个监督模型,所述分层状态机用于分层管理受控虚拟角色在游戏对局中的多个交互状态,以实现所述受控虚拟角色在所述多个交互状态间的状态转换,所述监督模型用于对所述状态转换的转换概率进行预测,所述受控虚拟角色为所述游戏对局中受控于所述智能体的虚拟角色,所述装置包括:数据获取单元、样本生成单元、模型训练单元;所述数据获取单元,用于获取历史游戏对局的每一个游戏时刻对应的游戏数据,所述游戏数据至少包括第一数据、第二数据、以及第三数据,所述第一数据用于表征第一虚拟角色对应的玩家在所述历史游戏对局中的属性信息,所述第二数据用于表征所述第一虚拟角色在每一个所述游戏时刻下的状态信息,所述第三数据用于表征第二虚拟角色在每一个所述游戏时刻下的状态信息,所述历史游戏对局包括多个虚拟角色,所述第一虚拟角色为所述多个虚拟角色中符合所述智能体类型的任意一个,所述第二虚拟角色为所述多个虚拟角色中除所述第一虚拟角色以外的至少一个虚拟角色;所述样本生成单元,用于根据每一个所述游戏时刻对应的所述游戏数据,生成训练样本集;其中,所述训练样本集包括多个训练样本,所述训练样本至少包括所述游戏数据对应的所述第一数据、所述第二数据、所述第三数据、以及第一状态标签和第二状态标签,所述第一状态标签用于表征所述第一虚拟角色在所述游戏数据对应的游戏时刻下的第一交互状态,所述第二状态标签用于表征所述第一虚拟角色在所述游戏数据对应的下一游戏时刻下的第二交互状态;所述模型训练单元,用于基于所述训练样本集对所述监督模型进行训练,以使所述监督模型输出针对所述第二状态标签的预测概率,以所述预测概率作为所述第一虚拟角色从所述第一交互状态转换为所述第二交互状态的转换概率。7、第五方面,本技术实施例提供了一种游戏中虚拟角色的控制装置,游戏对局中包括多个虚拟角色,所述多个虚拟角色中至少包括一个受控于智能体的第三虚拟角色,所述智能体包括分层状态机和对应于所述分层状态机的至少一个监督模型,所述分层状态机用于分层管理所述第三虚拟角色在所述游戏对局中的多个交互状态,以实现所述第三虚拟角色在所述多个交互状态间的状态转换,所述监督模型用于对所述状态转换的转换概率进行预测,所述装置包括:数据获取单元、状态确定单元、角色控制单元;所述数据获取单元,用于获取当前游戏时刻对应的游戏数据,所述游戏数据至少包括第四数据、第五数据、以及第六数据,所述第四数据用于表征所述智能体在所述游戏对局中的属性信息,所述第五数据用于表征所述第三虚拟角色在当前游戏时刻下的状态信息,所述第六数据用于表征第四虚拟角色在当前游戏时刻下状态信息,所述第四虚拟角色为所述多个虚拟角色中除所述第三虚拟角色以外的至少一个虚拟角色;所述状态确定单元,用于基于所述分层状态机和所述监督模型,根据所述游戏数据,确定所述第三虚拟角色的待转换状态,其中,所述监督模型为根据智能体的训练方法训练获得的;所述角色控制单元,用于根据所述待转换状态,控制所述第三虚拟角色在所述当前游戏时刻的下一游戏时刻执行第一虚拟动作,所述第一虚拟动作为所述待转换状态指示的虚拟动作。8、第六方面,本技术实施例提供了一种电子设备,包括:存储器、处理器;所述存储器,用于存储一条或多条计算机指令;所述处理器,用于执行所述一条或多条计算机指令,以实现上述方法。9、第七方面,本技术实施例提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,该指令被处理器执行时,执行上述方法。10、与现有技术相比,本技术提供的智能体的训练方法通过获取游戏对局的历史阶段中每一个游戏时刻对应的游戏数据,并根据每一个游戏时刻对应的游戏数据生成训练样本集,基于训练样本集对智能体中的监督模型进行训练,使得监督模型能够输出受控虚拟角色(受控于智能体的虚拟角色)从第一交互状态(当前游戏时刻下的交互状态)转换为第二交互状态(下一游戏时刻下的交互状态)的转换概率。通过本技术提供的智能体的训练方法训练获得的智能体是一种结合分层状态机和监督模型的智能体,智能体基于分层状态机能够控制受控虚拟角色在多个交互状态间进行状态转换,并基于监督模型对状态转换的转换概率进行预测。第一,由于分层状态机自身结构化的状态管理体系,能够对受控虚拟角色在游戏对局中的多个交互状态进行分层管理,相较现有的规则学习方法,基于分层状态机的智能体能够控制受控虚拟角色在游戏对局中执行更具体、更灵活的动作;第二,由于监督模型能够输出状态转换的转换概率,使得基于分层状态机进行的状态转换更加符合实际情况,增强了智能体的拟人化程度;第三,由于监督模型的输出数据为状态转换的转换概率,并不是具体的行为动作,降低了输出数据的维度,从而减小了监督模型训练过程中对训练样本的需求量,对资源的消耗程度,以及训练周期的长度,加快了智能体的落地速度。综上所述,本技术提供的方法解决了现有技术存在的因各学习方法的自身缺陷,导致智能体拟人化程度弱、容易被玩家识别,较高强度的智能体难以落地的技术问题。