发布日期:2024-09-02 浏览次数:次
本发明属于不完全信息交互,具体地,涉及一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品。背景技术:1、设计一个具有强大解决问题能力的人工智能体来处理不完全信息游戏一直是学术界的愿景,这需要智能体在各种任务中拥有学习和泛化能力。大语言模型(largelanguage model,llm)的出现揭示了这一愿景,尤其是它们可以在一系列任务中快速推广,许多基于llm的系统显示出显著增强的性能,如问答、代码生成和现实世界应用。2、尽管取得了这些成就,但构建一个人性化的智能体仍然是一项具有挑战性的工作。首先,不完全信息游戏的应用场景是智能体只能访问自己的状态和公共信息,而不知道其他人的状态,而大多数基于大型语言模型的智能体都是通过复杂的提示为特定任务设计的,包括详细的任务描述和行为规范,在不完全信息游戏中,由于信息不完善且更加复杂,设计的战略行为更为复杂。其次,不完全信息游戏的应用场景中可能存在多个智能体,它们可能相互影响,即一个智能体的行为可能会导致环境的变化,而其他智能体是不可预测的,且大多数基于大型语言模型的智能体不考虑与任务场景的交互,更重要的是,不能从过去的经验中学习,也不能在交互过程中发展他们的行为策略,在这种情况下常常无法适应环境的变化,导致决策失误。技术实现思路1、针对现有技术中存在的问题,本发明提供了一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品,提升智能体在不完全信息游戏中的交互能力。2、为实现上述技术目的,本发明采用如下技术方案:一种基于智能体优化的不完全信息游戏交互方法,具体包括如下步骤:3、步骤1、收集历史不完全信息游戏的游戏过程、游戏分数以及游戏信念;4、步骤2、将收集的每个游戏信念输入智能体重玩相同的不完全信息游戏,更新游戏信念并获取新的游戏分数,若新的游戏分数低于历史游戏分数,进行游戏信念纠错,生成由行动准则和世界建模组成的指令;5、步骤3、将生成的指令整合到智能体的大型语言模型的提示中,根据提示中对应的指令使智能体再次重玩相同的不完全信息游戏,若重玩的游戏分数有提高,保留所述指令;否则,将所述指令从提示中删除;6、步骤4、将保留在提示中的每一个指令基于dfs策略优化,筛选出最优的指令;7、步骤5、在新的不完全信息游戏中,本方游戏玩家的智能体根据最优的指令、游戏共有信息和对应游戏玩家的私有信息,生成动作,其他游戏对手的智能体也根据游戏共有信息和对应游戏玩家的私有信息生成动作,将所有动作输入到不完全信息游戏中进行交互。8、进一步地,步骤1中游戏信念是将不完全信息游戏中游戏共有信息和某一游戏玩家的游戏私有信息作为智能体的输入,由智能体生成的自我信念和环境信念的集合。9、进一步地,步骤2中指令生成的过程具体为:将第n次重玩相同的不完全信息游戏的过程、游戏信念纠错后的游戏信念序列、第n次重玩相同的不完全信息游戏的最终结果、第n次重玩相同的不完全信息游戏的游戏分数输入智能体的大型语言模型中,生成由行动准则和世界建模组成的指令。10、进一步地,重玩相同的不完全信息游戏的条件为:具有相同的对手和相同的初始游戏条件。11、进一步地,步骤3中指令从提示中删除的具体过程为:若智能体根据提示中的指令重玩相同的不完全信息游戏,连续三次的游戏分数均低于对应的历史游戏分数,将所述指令从提示中删除。12、进一步地,步骤4包括如下子步骤:13、步骤4.1、对于保留在提示中的每一个指令生成b个候选指令;14、步骤4.2、随机生成k+1个游戏玩家的新游戏,依次交换每个游戏玩家的游戏顺序和初始游戏条件,共产生k+12场游戏;15、步骤4.3、对于每一个指令,计算本方游戏玩家在k+12场游戏中的平均得分;16、步骤4.4、将所述指令输入智能体中进行指令更新,进行k+12场游戏,计算指令更新后本方游戏玩家在k+12场游戏中的平均得分;17、步骤4.5、若本方游戏玩家在k+12场游戏中的平均得分低于指令更新后本方游戏玩家在k+12场游戏中的平均得分,使用更新后的指令重复步骤4.4;否则,使用更新前的指令重复步骤4.4;18、步骤4.6、直至达到指令最大更新次数,输出最终指令;19、步骤4.7、若最终指令与步骤4.1中的指令相同,依次使用b个候选指令重复步骤4.3-4.6,筛选出最优的指令。20、进一步地,步骤4.3中本方游戏玩家在k+12场游戏中的平均得分的计算过程为:21、22、其中,i表示游戏对手的索引,i∈1,…,k;j表示k+12场游戏的索引,表示本方游戏玩家在第j场游戏的游戏分数,表示游戏对手在第j场游戏的最高游戏分数。23、进一步地,本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行所述的基于智能体优化的不完全信息游戏交互方法。24、进一步地,本发明还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现所述的基于智能体优化的不完全信息游戏交互方法。25、进一步地,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述的基于智能体优化的不完全信息游戏交互方法。26、与现有技术相比,本发明具有如下有益效果:本发明基于智能体优化的不完全信息游戏交互方法通过策略级反思对游戏信念纠错,从而提升指令的准确性和效率;并且,本发明对每一个指令基于dfs策略优化,筛选出最优的指令,能够在复杂的环境中找到最优解,减少决策错误;同时,本发明将最优的指令作用于智能体来实现不完全信息游戏的交互,增强了应对不完全信息游戏环境的能力,提高不完全信息游戏策略的灵活性和适应性。技术特征:1.一种基于智能体优化的不完全信息游戏交互方法,其特征在于,具体包括如下步骤:2.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤1中游戏信念是将不完全信息游戏中游戏共有信息和某一游戏玩家的游戏私有信息作为智能体的输入,由智能体生成的自我信念和环境信念的集合。3.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤2中指令生成的过程具体为:将第n次重玩相同的不完全信息游戏的过程、游戏信念纠错后的游戏信念序列、第n次重玩相同的不完全信息游戏的最终结果、第n次重玩相同的不完全信息游戏的游戏分数输入智能体的大型语言模型中,生成由行动准则和世界建模组成的指令。4.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,重玩相同的不完全信息游戏的条件为:具有相同的对手和相同的初始游戏条件。5.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤3中指令从提示中删除的具体过程为:若智能体根据提示中的指令重玩相同的不完全信息游戏,连续三次的游戏分数均低于对应的历史游戏分数,将所述指令从提示中删除。6.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤4包括如下子步骤:7.根据权利要求5所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤4.3中本方游戏玩家在(k+1)2场游戏中的平均得分的计算过程为:8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-7任一项所述的基于智能体优化的不完全信息游戏交互方法。9.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-7任一项所述的基于智能体优化的不完全信息游戏交互方法。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于智能体优化的不完全信息游戏交互方法。技术总结本发明公开了一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品,包括:将收集的每个游戏信念输入智能体重玩相同的不完全信息游戏,更新游戏信念,进行游戏信念纠错,生成指令;将指令整合到提示中,根据提示中对应的指令使智能体再次重玩相同的不完全信息游戏,若重玩的游戏分数有提高,保留指令;否则,删除指令;将保留的指令基于DFS策略优化,筛选出最优的指令;在新的不完全信息游戏中,本方游戏玩家的智能体根据最优的指令、游戏共有信息和对应游戏玩家的私有信息,生成动作,其他游戏对手的智能体也生成动作,将所有动作输入到不完全信息游戏中进行交互。本发明提升智能体在不完全信息游戏中的交互能力。技术研发人员:汤柯,张文祺,吴海,鲁伟明,李鹏受保护的技术使用者:中科南京软件技术研究院技术研发日:技术公布日:2024/8/20