在博弈人工智能(AI)领域,谷歌的AlphaGo是跨时代的作品。2016年3月AlphaGo以4:1击败世界顶尖职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,为AI研究立下了里程碑。此后,AlphaGo的改进版AlphaZero拥有更加强大的学习能力,通过自我学习,在21天达到胜过中国顶尖棋手柯洁的AlphaGo Master的水平。至此,AlphaGo已经没有人类对手。于是,其开发者杰米斯·哈萨比斯宣布AlphaGo退役。
最近,索尼公司宣布,其经过2年时间训练的人工智能代理 ― “GT索菲”,能击败《GT赛车》中全球最优秀的车手。《GT赛车》是一款由Polyphony Digital公司开发,在索尼PlayStation平台上非常受欢迎的模拟赛车游戏。
《GT赛车》视频截图
据报道,这款名为“GT苏菲”的AI代理,在2021年7月首次与《GT赛车》的四名顶尖车手展开了较量,当时,只有在赛道上没有其他车辆的情况下,才能战胜人类车手。但是在同年10月,在赛车挤满赛道上的情况下,“GT苏菲”也战胜了《GT赛车》的车手。
“GT苏菲”与AlphaGo一样,都属于博弈AI。但是,赛车驾驶技术的难点在于,其许多决定必须实时迅即做出,而围棋、象棋等比赛则只要在规定时间内完成,限制上要宽松许多。
常见的人工智能系统,如人脸识别与甄别垃圾邮件等等,都是通过使用被称为“深度学习”的方法,用真实世界的数据进行训练的。“GT苏菲”则采用了与“深度学习”不同的“深度强化学习”技法。在该技术中,AI在未接受训练、不知道该做什么的状态下开始训练。“GT索菲”在赛道上反复比赛,通过工程师设计的奖励系统,促使她取得更好的成绩,慢慢地学会了驾车游戏。
在“GT索菲”的学习过程中,特别困难的是要理解赛车中不成文的规则,比如避免碰撞,以及对其他车手不适当的插队等。“GT索菲”将博弈AI带到一个新的水平,通过掌握具有复杂动态的车辆实时控制来解决超现实模拟器的挑战,所有这些都是在与对手距离几英寸的情况下操作。
深度强化学习超越《GT赛车》的冠军,被认为是人工智能的突破,该项目因此登上了《自然》杂志2022年2月版的封面。(有趣的是AlphaGo是在2016年1月发表于《自然》杂志上的)
AI的研究是需要挑战的,只有不断战胜挑战,才能改进AI模型,提高技术水平。博弈AI里玩手与AI的博弈,就是不断给人工智能模型提供新的挑战。业界巨人微软公司也是一直在利用游戏来改进人工智能。可见,微软与索尼是异曲同工。
当然,索尼的声明说,其开发“GT索菲”,并不是为了输赢,而是为了为了与顶级的《GT赛车》车手竞争,提升他们的游戏体验。
与“GT索菲”对战的澳洲选手 --- “GT索菲”官网视频截图
“GT索菲”由索尼AI、Polyphony Digital (PDI)和索尼互动娱乐(SIE)合作开发。其中,《GT赛车》的开发商Polyphony Digital提供真正的驾驶模拟器,SIE提供云游戏基础设施,索尼AI则负责开发并训练“GT索菲”。
集游戏机、游戏平台、人工智能、多媒体技术于一身的索尼公司开发出划时代的AI产品,似乎是顺理成章之事。
供稿 / 戴维
编辑修改 / JST客观日本编辑部