德扑策略 | GTO策略的目标是什么?

  最优博弈论(Game Theory Optimal (GTO))这个概念在过去十年中广受扑克界的欢迎。GTO指的是不可剥削的固定策略。这个策略通常被视为扑克界的圣杯。

  那么不可剥削策略到底是什么呢?是什么使得它“不可剥削”?它想要达到什么目标?要理解这个策略,我们首先要知道纳什均衡(Nash Equilibrium)的概念。

  纳什均衡的定义

  纳什均衡指的是所有玩家都不能通过单方面改变自己的策略去达到更好的结果的一种状态。这意味着,如果所有玩家都公开自己的策略,没有玩家会有动机去改变自己的策略。纳什均衡在经济学、商业谈判、战争以及大部分有限非合作博弈(例如扑克)中均有应用。

  扑克游戏中的“GTO”指的就是这样的平衡状态。这是一个固定的、不可剥削且不需要调整的策略。纳什均衡产生的自然结果是,用于对抗GTO的最强且最具剥削性的策略就是GTO。

  在这个语境中,“公开自己的策略”指的是对手知道你在所有的情形下会怎么玩你范围内的牌。

  注意:“单方面”这个术语在多向游戏中会产生一些有趣的结果。如果两个或更多对手同时改变策略去对抗你,那么纳什均衡也是可剥削的(跟其他策略一样)。关于多向平衡,我们会在以后的文章中进一步探讨。

  固定策略 vs 动态策略

  GTO策略的主要优点之一是它是固定的,你不需要进行读牌就可以得到最佳策略,而你的读牌通常是不太准确的。

  “固定策略”指的是不会改变的策略。在不同的牌面和不同的下注尺度下,固定策略的应对可能会改变,但在同一个情形的同一个范围中,它永远是不变的。

  “动态策略”指的则是可以随时调整和改变的策略。剥削型策略是动态的,它可以根据对手的错误进行调整。当然,这需要你读出对手的范围并且经常调整你的策略。

  假设你在玩单挑游戏。你得选择一个固定策略并且坚持这个策略。你的策略是公开的;你的对手知道你在对抗任意下注尺度时在任意一个牌面会怎么玩你范围内的牌。你动态的对手会调整他的策略从而剥削你的策略的漏洞。如果你诈唬频率过高、价值下注过多、设陷阱太多、封顶你的过牌范围,他们都会知道。他们是洞察力极强的“千里眼”。

  在这个情况下,你的最佳策略是尽量避免漏洞,从而可以更好地对付每一个对手可能采用的应对策略。你既要能打败价值下注比重很大的胆小鬼,也要能打败喜欢诈唬的疯子。在对抗动态的“千里眼”对手时,GTO就是最强的策略。尽管从不改变,它也比所有人类能想出来的策略都强。

  GTO策略是如何计算的?

  GTO策略是用强大的求解器软件计算出来的。求解器只是利益最大化的算法。如果你强迫一个玩家采取很糟糕的策略,那么这个算法会找到最好的(即剥削性最大的)应对策略去剥削这个玩家的错误。如果你强迫这些剥削型算法互相对打,多次重复之后,它们最终会演变到一个平衡状态,谁也不能剥削谁。

  找到GTO策略的方法

  1. 首先假设A和B两个玩家在玩牌,他们采用的是完全随机的策略。

  2. 现在我们来修正玩家A的策略,然后让玩家B剥削这些策略。

  3. 现在开始修正玩家B的新策略,然后让玩家A剥削这些策略。

  4. 现在我们修正玩家A的新策略,然后让玩家B剥削这些策略。

  5. 不断重复这个过程,直至达到平衡。

  注意,还有其他方法可以找到GTO策略,但是不断重复剥削性算法是每个求解器的核心。

  寻找平衡状态的进度用变量期望值(dEV (delta expected value))来表示,有时候也称为“纳什距离”(Nash Distance)。这个指标能衡量当前策略的可剥削程度。“变量”(delta)指的是最具剥削性的策略跟当前策略之间的距离,数值越小,这个策略的可剥削性就越低,离平衡策略也就越近。

  在实践中,我们很少看到0 dEV,这是因为接近平衡的时候,你就越来越难取得进展了。GTO Wizard解决方案的精确度可以达到底池的0.2%-0.3%,这已经远超人类所能达到的精度水平了。

  GTO策略 vs 剥削型策略

  GTO策略跟剥削型策略是紧密相关的。GTO策略的目的是达到平衡;而剥削型策略的目的是剥削对手的错误。

  如果你不知道对手是如何偏离GTO策略的,你就无法剥削他。如果没有共同参考点,你就不能说一个人“打得太凶”、“打得太弱”或者“价值下注太多”。跟什么相比“太弱”呢?GTO策略就建立起了这个基准,把主观术语跟客观术语区分开来。当你了解了默认策略是怎样的,你就能更加准确地定位对手的错误。

  反之亦然。如果你不了解剥削的基本原则,那你就不会明白可剥削性最低的策略背后所隐藏的原因。平衡是脆弱的。GTO是建立在一系列微妙的剥削潜力的完美平衡之上的。如果一个玩家打得很弱,另一个玩家就可以停止设陷阱。如果一个玩家跟注频率太高,另一个玩家就可以停止诈唬。如果一个玩家弃牌频率太高,另一个玩家就可以过度诈唬。这个原则对于理解GTO策略背后的原因至关重要。

  这两种风格的策略都是有利可图的。一旦对手偏离了GTO策略,在不做调整的情况下,采取GTO策略的玩家就能被动获利。比起GTO策略,一个剥削型玩家可能会通过剥削对手的错误获利更多,但是他也要冒被对手反剥削的风险。

  GTO策略的目的是什么?

  GTO策略的终极目标是演变成不可剥削的策略。它旨在摆脱水平、亚对策以及读牌的束缚。它的目的是在对抗可能遇到的最好的应对策略时能产生最大的收益。在对抗动态的、不断调整策略的剥削型对手时,GTO是最强的固定策略。总的来说,GTO策略的目标是达到平衡。

Share:

Author: news, news

其他文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注