第五百七十一章 AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑_数学心

    在所有双人游戏里，“表现过人”的ai都是通过近似纳什均衡实现的。在纳什均衡里，只要另一位玩家的策略保持不变，任何人都不能从改变策略中获益。虽然ai的策略只能保证比赛结果不比平局更差，但如果ai的对手犯了错误而无法维持均衡时，ai将取得胜利。

    在两人以上的比赛中，采取纳什均衡将是一种失败的策略。因此pluribus摒弃了理论上成功的保证，采取了一种新的能一直击败对手的策略。

    人类做不到的策略

    “进行六人游戏，而不是一对一，这需要ai对游戏策略进行根本改变，”pluribus开发者brown表示，“我们为pluribus的表现感到高兴，并相信它的一些比赛策略甚至可能改变职业选手的比赛方式。”

    pluribus的算法在其策略中创造了一些令人惊讶的特征。例如，大多数人类选手会避免“反主动下注（donkbetting）”——它通常被视为一种没有战略意义的弱势举动。但pluribus比被它击败的职业选手更频繁地使用这一策略。

    “pluribus的主要优势在于它能运用混合策略，”职业选手elias表示，“这与人类试图做的事情是一样的。对于人类，这是执行问题——以完全随机的方式做到这一点并且持续这样做。大多数人都做不到。”

    曾在扑克职业生涯里获得了近200万美元的收入的gagliano在与pluribus比赛后说：“有些策略是人类根本就不会去做的，尤其包括它的投注规模。”

    pluribus在具有统计意义的情况下取得了稳固的胜利令gagliano尤其印象深刻：“机器人不只是和一些职业选手对垒。它已经成为世界上最好的选手之一。”

    有限前瞻搜索算法

    进一步剖析pluribus会了解到，它的各种策略是基于一种新的有限前瞻算法，这正是它能够打败多个人类扑克玩家的原因。这是完全信息博弈的标准方法，但在非完全信息博弈中却极具挑战性。

    pluribus首先通过和6个它自己的副本玩的场景来计算一个“蓝图”策略，这让它能在第一轮下注。之后，pluribus将在更细粒度的博弈抽象中更详细地搜索可能的变动。这时，它会展望未来的几步，由于计算量的限制，它并不会推演到博弈的最后。

    具体来说，在子博弈的叶子上，ai考虑了每个对手和自己可能会在剩下的比赛中采用的五个可能的延续策略。可能的延续策略的数量很多，但研究人员发现他们的算法只需要考虑每个叶子的每个选手的五个延续策略来计算强大、平衡的整体策略。

    pluribus也试图变得不可预测。例如，如果人工智能拥有最好的一手牌，那么投注就有意义，但是如果人工智能只有在拥有最好的一手牌时才投注，那么对手就会很快赶上来。因此，pluribus计算出各种可能，并在所有可能性中保持平衡的策略。

    尽管德州扑克是一种极其复杂的游戏，但pluribus有效地利用了计算。最近在游戏中取得里程碑式进展的ai使用了大量服务器和gpu；双人扑克ailibratus需要大约1500万个小时来开发策略，在实时游戏中使用了1400个cpu核心小时。而pluribus仅使用了12，400个核心小时就计算出了蓝图策略，并且在现场游戏中仅使用了28个核心小时。

    面对ai技术的不断突破，很多人会顾虑ai发展对人类的威胁，然而把握技术应用大门的钥匙仍掌握在人类自己手中，正如爱因斯坦所说：“科学，究竟是给人带来幸福还是带来灾难，全取决于人自己。”