无情的“超人”扑克计算机程序让精英球员弃牌

一个名为Pluribus的侵略性机器人在人工智能方面取得了突破。


作者:Joel Achenbach

Joel Achenbach

记者报道科学与政治

电子邮件 生物

7月11日下午2:00

杰森莱斯是世界顶级扑克玩家之一,他在5月份面对一个名为Pluribus的计算机程序时代表他的物种。 这场比赛是多人无限制德州扑克。 莱斯和其他拥有至少100万美元职业收入的职业扑克玩家自愿参加机器人测试是否达到了精英级别的扑克精湛技艺。

“我在这场比赛中捍卫人类的统治地位,”莱斯说。 “不幸的是,我失败了。”

周四在“科学”杂志上报道了Pluribus的胜利,标题为“Superhuman AI for multiplayer poker”。像国际象棋,跳棋,Go和其他游戏一样,最流行的扑克形式现在已被冷酷无情的嘲笑所掌握。电脑程序。

Pluribus采用的策略在某些方面肯定了游戏顶级玩家的最佳战术本能。 但它也有一些惊人的趋势,包括其投注习惯令人眼花缭乱的不可预测性。 它经常在手中提前投入巨额资金 - 让人想起“危险!”冠军和专业体育博彩家詹姆斯霍尔豪尔的破坏性策略。

人工智能的这一里程碑具有扑克之外的含义,或拉斯维加斯赌桌上发生的任何事情。 发明者说,这项技术可以应用于自动驾驶汽车,拍卖,合同谈判和产品开发决策。 它甚至可以用于政治活动 - 帮助候选人决定在与多个对手的比赛中分配资源的位置,每个对手都有一个秘密战略。

此外,与国际象棋和围棋中无与伦比的“深度学习”AI程序不同,Pluribus不会使用大量的数据和计算。

“它的基础技术非常普遍,我认为它将适用于各种各样的环境,”主要作者Noam Brown说道,他在Facebook Research工作,是卡内基梅隆大学的研究生,在那里他开始了这项研究。 。 他说,关键的挑战是,“在复杂的多智能体环境中,如何让AI应对隐藏的信息?”

布朗在卡内基梅隆的顾问托马斯·桑德霍尔姆(Tuomas Sandholm)和新论文的合着者表示,经过16年的研究和软件的逐步改进,Pluribus的发展得以实现。 他说,他已经启动了两家私营公司将该软件商业化。

早期的软件程序迭代,称为Libratus,已经证明它可以在双人扑克中获胜,但Pluribus在多人扑克游戏中工作,这是一个复杂得多的情况。 Sandholm将Pluribus描述为“深度限制的前瞻算法。”Pluribus在决定做什么时(例如,打赌,下注或弃牌),计算赢手的几率,但它只进行计算提前几步,而不是一直到游戏结束,这将需要不可思议的计算量。 桑德霍尔姆说,展望游戏的结束“将比宇宙的生命花费更长的时间”。

Pluribus实验有两个阶段。 首先,Pluribus必须擅长扑克。 它通过对自己的副本进行双手操作来做到这一点。 它研究了在不同的情况下结果可能是什么。 如果一个不同的举动可以提高获胜的几率,那么机器人会决定更频繁地做这个动作。 这个过程使Pluribus能够磨练其算法 - 它的“蓝图策略” - 用于下一阶段,与人类的竞争。

在12天的过程中,机器人针对十几名精英职业球员,每次五人一组,玩了10,000手牌。 在一个版本的实验中,五个机器人扮演一个人。 随着时间的推移,尽管有些起伏不定,机器人仍然排在首位。 研究人员计算出,像这样的机器人,玩1美元的筹码,平均每小时玩扑克的价格超过1000美元。

游戏中一些最好的玩家已经从Pluribus学到了东西。

“机器人最强的套装之一就是能够发挥混合策略。 它可以拥有完全相同的手和相同的场景,并且每次都有不同的赌注,“参与实验的职业扑克玩家Darren Elias告诉华盛顿邮报。 “你无法了解他正在做的事情 - 它正在做什么。”


上个月在拉斯维加斯举行的世界扑克锦标赛。 (John Locher / AP)

这个机器人的一个引人注目的特点是巨大的早期赌注。 有时,机器人会在扑克手中或在人类可能不会的情况下下注牧场(“全部进入”)。

有时候Pluribus会折叠,即使手牌也不错,或者即使有一手牌也会打赌。 Pluribus并不害怕虚张声势。 最重要的是,Pluribus以对人类对手来说似乎是随机的方式下注。 不可预测性是这里的杀手级应用。 机器人在策略的执行中没有感情和不知疲倦。 它具有任何机器的特殊礼物 - 无法过度反应,变得气馁或绝望。

“这令人不安,”莱斯说,33岁。“你不知道会发生什么。 关于人类如何玩扑克的先入为主的想法并不适用。“

在德州扑克中,每个玩家获得两张面朝下的牌(称为底牌),然后是三张牌面朝上(翻牌圈),然后是另一张面朝上的牌(转牌),然后是最终牌,也是面朝上(河流)。 玩家可以从七个牌中组装五手牌。 每一轮都有投注。

在研究团队强调的一方面,Pluribus在洞中有五颗和六颗钻石。 翻牌圈显示了10枚和2枚钻石以及4枚黑桃。 对于Pluribus来说看起来很有希望:如果剩下的两张牌中有一张是三张牌的话,它可能会变得很好(好!)如果最后两张牌中的一张是钻石,它本可以得到同花(甚至更好!)。

此时还有三个人类玩家在手中(另外两个人已弃牌)。 前两名球员“检查”,意味着他们没有下注但没有弃牌。 然后第三个人类玩家将筹码增加了300美元 - 显然他的洞牌,王牌和女王都有权力。 Pluribus有多种选择:弃牌,跟注或加注。 Pluribus选择了最激进的一切 - 全力以赴,投注了全部筹码,9,775美元。 超人超级咄咄逼人! 三名人类球员弃牌。

莱斯回忆起另一只手,Pluribus失去了,但揭示了关于机器人的一些事情。 如同莱斯回忆的那样,Pluribus有三个两个,一个非常好的牌,并且做出了一个典型的攻击性赌注,是底池值的三倍,大约3000美元。 然后一个人类对手全押.Plibibus折叠起来。

这听起来像是一个糟糕的举动。 Pluribus损失了这么多钱! 但机器人并不关心。 机器人坚持一个似乎随着时间的推移无情地工作的策略,即使在混合中有损失。 这包括折叠而不用担心,而不是担心丢失的钱。 莱斯指出,人类非常不愿意放弃三手牌并且已经投入3000美元。

“很多人可能会像:'我有三种类型。 我有这么好的一面。 我不能让这个家伙把我推开,“莱斯说。”人工智能没有这样的情绪反应。它只是一个策略。“

布朗谈到他的发明时说:“机器人总是玩长时间游戏。 只要大部分时间都是正确的,从长远来看,它会赚钱。“

故事的一个有趣或可能令人不安的因素是机器人在不关注对手的个性,习惯和策略的情况下实现了这些结果。 机器人不关心人类心理。 它不知道它在玩谁或试图计算对手的精神状态。

这与本周在拉斯维加斯举行的世界扑克锦标赛中发生的情况形成鲜明对比。 电视观众会注意到,玩家花了很多时间仔细检查彼此,试图找出谁在虚张声势,谁不是 - 寻找“告诉”。

Pluribus的建议是,人类可能会高估游戏的心理部分。 获得正确的数学和概率似乎是成为冠军所必需的。

无论谁在桌子上抽搐,刮擦和眨眼都没关系。

阅读更多:

Google的AlphaGo击败了世界上最好的Go玩家

如果James Holzhauer打破了'危险!',这有关系吗?

Facebook正在加大对人工智能的研究力度

REF: https://www.washingtonpost.com/science/2019/07/11/ruthless-superhuman-poker-playing-computer-program-makes-elite-players-fold/