DeepMind 最新研究揭秘 AlphaZero 黑箱内部运作原理

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepMind 最新研究揭秘 AlphaZero 黑箱内部运作原理

热心网友时间：2026-05-15

转载

国际象棋，长久以来被视为人工智能发展的“试金石”。早在七十年前，计算机科学先驱艾伦·图灵就曾提出一个设想：能否创造一台能够自主学习、并在实践中不断进化的下棋机器？从依赖人类专家知识编程、首次战胜世界冠军的“深蓝”，到2017年横空出世的AlphaZero，图灵的愿景最终被一个基于神经网络的强化学习系统实现了。

AlphaZero的核心突破在于其独特的训练模式：它不依赖于任何人为预设的启发式规则，也无需参考人类历史棋谱，完全通过海量的自我对局进行学习与迭代进化。

这引发了一个关键性的思考：在这种“从零开始”的自我进化过程中，AlphaZero是否真正理解和掌握了人类棋手所认知的那些国际象棋战术概念？这个问题直接触及了神经网络可解释性研究的核心。

近期，AlphaZero的创造者Demis Hassabis与其DeepMind团队及谷歌大脑的研究人员合作，在发表于《美国国家科学院院刊》（PNAS）的一项研究中给出了肯定的答案。他们不仅在AlphaZero的神经网络中找到了人类象棋概念的明确表征，还清晰地揭示了这些概念是在训练过程中何时、在网络的哪个部分被习得的，甚至发现了AlphaZero与人类棋手截然不同的棋风与策略偏好。

AlphaZero如何在训练中习得人类象棋概念

AlphaZero的网络架构包含一个作为骨干的残差网络（ResNet），以及独立的策略头和价值头。其训练从一个参数随机初始化的神经网络开始，通过反复的自我对弈、棋局评估，并利用生成的数据迭代更新网络参数。

为了探究AlphaZero的网络在多大程度上编码了人类棋手的思维模式，研究团队采用了“稀疏线性探测”这一前沿方法。简而言之，该方法旨在将网络参数在训练过程中的动态变化，映射到人类可理解的概念变化上。

具体而言，研究人员首先将人类象棋知识“翻译”成一系列可计算的函数，即“概念标签”。例如，“我方是否拥有主教”就是一个基础概念。更复杂的如“棋子机动性”，则需要编写函数来量化并对比双方棋子的可移动范围得分。

随后，他们利用ChessBase数据集中的大量真实棋局作为样本，在AlphaZero网络不同层的激活值上，训练一个稀疏回归“探针”，用以预测某个特定概念的值。通过比较不同训练阶段、不同网络层中探针的预测精度，研究人员绘制出了一张详细的“概念学习地图”，直观展示了“何种概念”、“在何时”、“于何处”被网络所掌握。如图2所示。

图1：在AlphaZero网络（蓝色）中探索人类编码的国际象棋概念。

例如，可以用一个函数来确定我方或地方是否有“主教” (♗) ：

图2：从A到B的概念分别是“对总分的评估”、“我方被将军了吗”、“对威胁的评估”、“我方能吃掉敌方的皇后吗”、“敌方这一步棋会将死我方吗”、“对子力分数的评估”、“子力分数”、“我方有王城兵吗”。

分析这些“概念学习地图”可以揭示几个关键模式。首先，许多概念的学习轨迹呈现出高度一致性：在训练约3.2万步之前，网络各层对概念的编码精度普遍较低；此后，精度随着网络深度迅速提升并趋于稳定。这表明，与概念相关的核心计算大多发生在网络的相对浅层，更深层的残差块可能更专注于落子选择或计算其他未明确定义的高级特征。

其次，随着训练的推进，大量人类定义的概念都能以很高的准确率从AlphaZero的内部表征中预测出来。但不同概念的掌握时机存在差异。像“子力价值”和“空间控制”这类基础概念，在训练仅2千步时就已初现端倪；而更复杂的“王的安全”、“威胁评估”、“机动性”等高级概念，则要到8千步后才开始被显著捕捉，并在3.2万步后出现实质性增长。这与图2中显示的精度的“陡升”拐点相吻合。

值得注意的是，大多数概念的探测精度在经历初期的快速增长后，会进入平台期甚至出现轻微下降。这暗示，当前的方法可能只触及了网络所学知识的表层，要理解更深层、更抽象的表征，或许需要开发更先进的探测与分析技术。

AlphaZero的开局策略与人类棋手存在显著差异

既然证实了AlphaZero能够学会人类概念，研究人员顺理成章地追问：它对战术的理解，尤其是在开局阶段的选择，是否也与人类棋手的共识一致？毕竟，开局偏好深刻反映了棋手对棋盘局势背后各种概念的权衡与评估。

答案是否定的。研究发现，AlphaZero与人类在开局策略的演化路径上截然不同，甚至可以说是背道而驰。

回顾人类国际象棋发展史，开局库是不断拓宽和丰富的。早期棋手普遍偏爱第一步走王前兵（e4），后来才逐渐发展出后前兵（d4）、英国式开局等更多样、更平衡的体系。然而，AlphaZero的演化路径恰恰相反：在训练初期，它对所有合法第一步的评估相对平均；随着训练深入，其选择范围却逐渐收窄，表现出对后前兵（d4）等特定走法的明显且稳定的偏好。

图3：随着训练步骤和时间的推移，AlphaZero和人类对第一步的偏好比较。

这种差异的根源尚不完全明确，但很可能反映了人类集体智慧结晶与机器自我探索之间的根本不同。人类棋谱库凝聚了历代大师的经验与智慧，而AlphaZero的训练数据则混合了从初级到高级的自我对弈棋局，且其训练过程为了鼓励探索而引入了大量随机性。

更有趣的是，即便在AlphaZero内部，不同训练周期产生的模型，其开局偏好也并非一成不变，而是呈现出丰富的多样性。以经典的“西班牙开局”为例，AlphaZero在早期训练中会遵循人类常见的应对（1.e4 e5, 2.Nf3 Nc6, 3.Bb5）。但在不同的训练运行中，它会逐渐收敛到两种不同的偏好上：3...a6 或 3...f6。并且，这种偏好早在训练初期就已确立。

这强有力地说明，在国际象棋这个复杂的策略空间中，通往胜利的道路不止一条。策略的多样性不仅存在于人机之间，也存在于人工智能模型内部不同的“进化分支”里。

AlphaZero掌握知识的具体过程解析

那么，AlphaZero对开局策略的探索，与其对各类象棋概念的掌握过程有何内在关联？研究发现，两者在时间线上存在清晰的呼应关系。

在许多概念的“学习地图”中，可以观察到一个明显的性能拐点，而这个拐点出现的时间，正好与开局偏好发生显著变化的时间段重叠。特别是“子力价值”和“机动性”这两个核心概念，它们似乎直接驱动了开局策略的演变。

“子力价值”的概念主要在训练1万到3万步之间被牢固掌握，而“棋子机动性”的概念则在同期逐步整合到网络的价值头评估中。合乎逻辑的是，对棋子基础价值的理解应先于对棋子灵活性的评估。随后，AlphaZero将这套整合后的评估理论应用于开局选择，其偏好在大约2.5万到6万训练步之间趋于稳定。

基于这些发现，研究人员勾勒出AlphaZero知识演进的三个阶段：首先是发现并掌握基本的“子力”价值；随后进入一个短暂但密集的知识爆发期，快速吸收如“机动性”、“空间”等相关高级概念；最后是一个漫长的精炼与优化阶段，神经网络的开局策略在数十万步的训练中不断微调固化。值得注意的是，虽然整体学习周期很长，但某些基础能力会在相对短暂的时间窗口内“顿悟”般快速涌现。

这一结论甚至得到了前国际象棋世界冠军弗拉基米尔·克拉姆尼克的认同，他的实战观察与上述学习过程不谋而合。