一种主任务和辅助任务并行的智能体分配方法及装置

xiaoxiao10天前  16


本发明涉及强化学习和多智能体博弈,特别是指一种主任务和辅助任务并行的智能体分配方法及装置。


背景技术:

1、在当前多智能体强化学习领域,团队奖励的稀疏性是一个影响算法学习成功与否的重要因素,稀疏的团队奖励往往使智能体难以完成团队目标。在多智能体强化学习任务中,智能体需要从与环境交互所得到的反馈中去学习,分辨哪些动作序列使奖励得到了实质提升,但事实上所得到的反馈信号很稀疏,以至于智能体很难从反馈数据中提取有用特征,从而使的建立最大化,完成目标。尤其是在多智能体环境中,团队目标只有一个,团队奖励的设定也往往比较稀疏,与环境交互所得到的反馈很难给团队中的每个智能体足够的奖励分配,这使算法难以成功学习合作团队策略。

2、目前,解决这一问题的常用方法是为放大从游戏环境中得到的稀疏的外部奖励信号,通过额外的反馈信号帮助智能体学习。具体实施时可以为单个智能体设置密集的个人奖励,以引导智能体进行合作并完成团队主任务。然而,这一方法并不能总是有效,过于密集的个人奖励有时甚至会使智能体丧失探索的欲望,亦或者得到与现实世界不相符的动作和逻辑。在训练智能体时,希望智能体的每个动作都对应着不同的奖励。但是某些任务中,,智能体并不能在完成一个动作后立刻获得奖励,比如在围棋游戏中,智能体获得最终的胜率会得到奖励,但是在漫长的训练过程中,很难去设定中间每一步的奖励,这会导致学习过程缓慢甚至无法进行学习,这就是强化学习中的奖励稀疏问题。

3、在算法的实际应用过程中,一般需要手动添加密集的个人奖励以指导智能体完成任务。例如,在机械臂“开门”的任务中,由于任务的复杂性,机械臂从随机策略开始,很难通过自身探索获得奖励。为了简化训练过程,可以使用人为设计的个人奖励:1)在机械臂未碰到门把手时,将机械臂与门把手距离的倒数作为奖励;2)当机械臂接触门把手时,给予一定奖励;3)当机械臂转动门把手时,给予一定奖励;4)当机械臂完成开门时,给予最终的奖励。这样,通过人为设计的密集奖励,可以引导机械臂完成开门的操作,简化训练过程。

4、然而,人为设计的密集的个人奖励往往具有很多局限性:

5、(1)这些密集的个人奖励有时会给学习带来错误的引导,改变智能体的学习目标,使最终策略收敛到局部最优,训练结果偏离团队的预期目标,给学习带来负面影响。例如,对于一个足球赛环境,如果引入了太多鼓励传球或者铲球的个人奖励,智能体可能会更倾向于做出这些动作从而获得个人奖励,而不是完成团队的主任务。

6、(2)团队奖励和个人奖励的混合使用会影响智能体之间的信用分配。智能体的学习过程可能会受到其他智能体干扰。在足球赛环境中,如果一个智能体出界了,那么它的处罚会被分配给其他智能体,整个团队的学习进程会受到干扰。

7、(3)不合理的奖励设计还会使智能体在探索环境中存在安全隐患。amodei等对人工智能中与安全性相关的研究进行了综述,其中涉及由于奖励设计不当而导致的安全性问题。


技术实现思路

1、本发明实施例提供了一种主任务和辅助任务并行的智能体分配方法及装置。所述技术方案如下:

2、一方面,提供了一种主任务和辅助任务并行的智能体分配方法,该方法由智能体分配设备实现,该方法包括:

3、s1、基于atp框架,确定多智能体的团队主任务以及每个智能体的个人辅助任务;

4、s2、根据个人辅助任务和团队主任务,根据actor-critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励;每个策略至少包括环境状态、执行动作以及下一个状态;

5、s3、根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度;

6、s4、将每个策略中的环境状态、执行动作、下一个状态以及执行动作对应的奖励作为经验,放置到atp框架的经验池中,并对经验池中的经验进行排序;

7、s5、以所述相似度为约束,基于经验池的经验回放机制,对所述个人策略和团队策略分别进行更新;

8、s6、重复执行s2-s5,直至完成团队主任务。

9、另一方面,提供了一种主任务和辅助任务并行的智能体分配装置,该装置应用于主任务和辅助任务并行的智能体分配方法,该装置包括:

10、第一确定模块,用于基于atp框架,确定多智能体的团队主任务以及每个智能体的个人辅助任务;

11、第二确定模块,用于根据个人辅助任务和团队主任务,根据actor-critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励;每个策略至少包括环境状态、执行动作以及下一个状态;

12、第三确定模块,用于根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度;

13、经验排序模块,将每个策略中的环境状态、执行动作、下一个状态以及执行动作对应的奖励作为经验,放置到atp框架的经验池中,并对经验池中的经验进行排序;

14、更新模块,用于以所述相似度为约束,基于经验池的经验回放机制,对所述个人策略和团队策略分别进行更新;

15、重复执行模块,用于重复执行s2-s5,直至完成团队主任务。

16、另一方面,提供一种智能体分配设备,所述智能体分配设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述主任务和辅助任务并行的智能体分配方法中的任一项方法。

17、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述主任务和辅助任务并行的智能体分配方法中的任一项方法。

18、本发明实施例提供的技术方案带来的有益效果至少包括:

19、本发明实施例在现有的智能体信用分配poca算法的基础上,加入atp框架,进一步采用actor-critic框架,以及集中式训练-分布式执行对智能体的方式。通过增加样本的多样性和重复利用样本来改善训练的稳定性和收敛性,能够在提高多智能体任务训练效率的同时,促进智能体间的合作。而且,通过智能体的辅助任务促进多智能体之间合作,在提升训练效率和智能体表现的同时不会增加额外的计算负担。



技术特征:

1.一种主任务和辅助任务并行的智能体分配方法,其特征在于,所述方法包括:

2.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s2的根据个人辅助任务和团队主任务,根据actor-critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励,包括:

3.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s3的根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度,包括:

4.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s4的对经验池中的经验进行排序,包括:

5.根据权利要求4所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s5的以所述相似度为约束,基于经验池的经验回放机制,对所述个人策略和团队策略分别进行更新,包括:

6.根据权利要求5所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s52的使用具有递增系数的第一正则化器控制挑选的个人策略样本与团队策略样本之间的距离,对个人策略进行更新,包括:

7.根据权利要求5所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s52的使用具有递减系数的第二正则化器控制挑选的团队策略样本与个人策略样本之间的距离,对团队策略进行更新,包括:

8.一种主任务和辅助任务并行的智能体分配装置,所述主任务和辅助任务并行的智能体分配装置用于实现如权利要求1-7任一项所述主任务和辅助任务并行的智能体分配方法,其特征在于,所述装置包括:

9.一种智能体分配设备,其特征在于,所述智能体分配设备包括:

10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。


技术总结
本发明涉及强化学习和多智能体博弈技术领域,特别是指一种主任务和辅助任务并行的智能体分配方法及装置。方法包括:基于ATP框架,确定团队主任务以及个人辅助任务,根据Actor‑Critic框架,确定团队策略以及个人策略,确定团队策略中执行动作的奖励和每个个人策略中执行动作的奖励;根据个人策略、个人策略中执行动作的奖励、团队策略以及团队策略中执行动作的奖励,确定个人策略与团队策略之间的相似度;将经验放置到ATP框架的经验池中,并对经验池中的经验进行排序;以相似度为约束,基于经验池的经验回放机制,对个人策略和团队策略分别进行更新。采用本发明,可以在提高多智能体任务训练效率的同时,促进智能体间的合作,不会增加额外的计算负担。

技术研发人员:于欣波,崔晓峰,贺威,王志闯,周长信,张爽,张冬浩,吴逸帆,冯楠,李擎
受保护的技术使用者:北京科技大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)