DeepMind：国际象棋有助于训练新一代人工智能的创造力-安全客

DeepMind 团队教会人工智能使用国际象棋进行创造性思考。

2020 年，随着新冠疫情席卷全球，计算机科学家汤姆·扎哈维 (Tom Zahawi) 重新燃起了对国际象棋的兴趣。受到加里·卡斯帕罗夫（Garry Kasparov）的书和流行的国际象棋节目的启发，他将注意力转向了国际象棋谜题，而不是改进自己的棋艺。正是这些谜题让扎哈维和他在 Google DeepMind 的同事们发现了国际象棋程序隐藏的局限性。

长期以来，国际象棋一直是人工智能的试验场。这个谜题由罗杰·彭罗斯爵士创建，揭示了与经验丰富的国际象棋棋手不同，强大的国际象棋程序无法正确评估复杂的局面。这次观察成为扎哈维探索利用人工智能解决问题的创造性方法的起点。

在 DeepMind，Zahavi 开发了一种方法，该方法结合了多达 10 个不同的人工智能系统，每个系统都针对不同的游戏策略进行了优化。这种方法产生了一个比 AlphaZero 更好地执行彭罗斯谜题的系统，AlphaZero 是 DeepMind 程序，在国际象棋中取得了出色的成绩。成功的实现得益于代理人的“自我合作”：如果一种方法没有效果，该计划就会转向另一种方法。

扎哈维在 DeepMind 的研究基于深度强化学习的原理，其中人工智能系统从经验中学习，并因成功的行动而获得奖励。 AlphaZero 程序通过与自己下棋 4400 万局来训练下棋，并很快达到了击败任何人类的水平。然而，扎哈维指出，这种学习方法可能会导致“盲点”，即系统无法解决以前没有遇到过的问题。

扎哈维的方法建议结合多个人工智能系统，每个系统在不同的条件下进行训练，使系统能够找到复杂问题的创造性解决方案，类似于人类的头脑风暴。测试表明，这样的系统比单独使用 AlphaZero 可以解决更多的难题。

这项工作的结果表明，有效利用各种人工智能系统的团队不仅可以解决国际象棋中的复杂问题，还可以解决其他领域的复杂问题，包括寻找新药和制定股票市场交易策略。扎哈维认为，为了让人工智能系统进行创造性思考，他们只需要考虑更多可能的解决方案。该研究强调，智力可能只是计算能力和从大量最优策略中进行选择的能力的问题。