11月10日周三,据媒体消息,清华大学在足球游戏中打造了一个拥有强大多智能体强化学习AI,名唤TiKick。其在单智能体控制和多智能体控制上均取得了SOTA性能,并且还是首次实现同时操控十个球员完成整个足球游戏。
据了解,这个足球AI训练所用的强化学习环境是谷歌于2019年发布的足球游戏"GRF",基于物理的3D足球模拟,支持所有主要的比赛规则,由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。
在由三千步组成的上下半场比赛中,智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等近二十个动作完成进球。
值得注意的是,在这样的足球游戏环境中进行强化学习还是有不少难度的,一是因为多智能体环境,也就是一共 10 名球员(不含守门员)可供操作,算法需要在如此巨大的动作空间中搜索出合适的动作组合;二是很多时候一场足球比赛下来进球数是极少,正是这种情况让算法很难频繁获得来自环境的奖励,这也直接导致了训练难度的大幅提升。
通过模块化设计,这个分布式训练架构还能在不修改任何代码的情况下,一键切换单节点调试模式和多节点分布式训练模式,大大降低算法实现和训练的难度。
将TiKick与GRF游戏学术场景中的基线算法进行横向比较后发现,足球AI在所有场景下都达到了很高的性能和更低的样本复杂度,且差距明显。与其中的基线MAPPO相比还发现,在五个场景当中的四个场景都只需一百万步就能创下分数新高。
相关文章