Facebook开发新的扑克AI,性能优于Libratus!

Facebook的研究人员开发了一个名为「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,该框架通过在长期以来对AI程序来说很困难的游戏(德州扑克)上表现出色而得到证明。

ReBeL框架实现了新概念,使它能够更好地处理扑克的部分信息方面,甚至胜过以前的超人扑克AI,即Libratus。

近年来,人工智能系统在破解各种复杂游戏方面表现出了惊人的能力。DeepMind的AlphaZero程序能够只从国际象棋、将棋(日本象棋)和围棋的基本规则开始教自己下棋,利用自我下棋的方式,在几个小时内就达到了这三种游戏的新高度。

Libratus还利用自我游戏来学习正面无限制扑克。ReBeL也是这样做的,但加入了一个新的概念,即什么是 “游戏状态”,让AI在自我游戏中更好地理解隐藏信息游戏。

ReBeL考虑了可见的游戏状态的信息,比如已知的牌,下注大小,甚至对手可能拥有的手牌范围。此外,它还会考虑每个玩家对自己所处状态的 “信念”,类似于人类可能会考虑对手认为自己在手牌中是领先还是落后。

为此,ReBeL实际上是通过自我发挥强化学习来训练两个不同的AI模型:一个是价值网络,一个是政策网络。然后,AI在研究人员所谓的公共信念状态(Public belief states,简称PBS)上进行操作。在象棋这样的完美信息游戏中,只要有一个游戏状态就足以做出完美的决策。PBS既考虑了对弈状态,又考虑了双方的政策等因素,从而得出一个完整的、概率的模型,说明棋手可能做出的所有行动,以及这些行动的结果。

ReBeL在面对人类敌人时,表现得比Libratus更出色

与世界上最好的单挑扑克玩家之一的Dong Kim相比,ReBeL在7500手牌中每手玩的时间超过了2秒,决策所需的时间从不超过5秒。Facebook以前的扑克游戏系统Libratus的最高得分为147,而ReBeL对人类的平均每场比赛盲注(强迫下注)得分为165(标准差为69)。

担心被拿去从事博彩行业,Facebook决定不公开源码

在实验中,ReBel在不完美的信息游戏中表现出色。Facebook团队进行了实验,其中ReBel玩了两个玩家版本的Hold’em,Turn Endgame Hold’em(游戏的简化版本,前两轮没有加注)和Liar’s Dice。

研究小组使用了多达128台带有8个显卡的电脑来生成模拟游戏数据,并在训练期间随机分配赌注和筹码大小(从5,000到25,000个筹码)。ReBeL 在整场比赛中接受训练,并且有20,000美元可以下注。

出于对作弊的担心,Facebook 团队决定不发布用于扑克的ReBeL代码库。相反,他们将 Liar’s Dice 的实现开放了。Facebook的研究人员相信ReBeL将使得德州扑克在强化学习研究领域更受欢迎。

「虽然人工智能算法已经存在,可以在扑克游戏中取得超人的表现,但这些算法通常假设参与者拥有一定数量的筹码或使用一定的赌注大小」。

而在实战中,你的筹码数量是不定的,所以需要重新训练算法,这种情况下想进行实时对战就有困难了。但是,ReBeL 可以在几秒钟内计算任意任意赌注大小的策略。

Share:

Author: 1, 1

其他文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注