人工智能-搜索----对抗搜索_综合

二、对抗搜索（Adversarial Search）(博弈搜索 Game Search)

所谓对抗搜索，即在一个竞争环境中，智能体（agents）之间通过竞争实现相反的利益，一方最大化这个利益，另一方最小化这个利益。

本文主要讨论在确定的、全局可观察的、竞争对手轮流行动、零和游戏（zero-sum）下的对抗搜索。

例如，两人对决游戏（MAX and MIN,MAX先走）可如下形式化描述，从而将其转换为对抗搜索问题。

下面我们通过Tic-Tac-Toe游戏来理解一下对抗搜索。

游戏规则：

我们的目标是，选择一个最优策略保证MAX选手的利益最大化。

1、minimax算法

给定一个游戏搜索树，minimax算法通过每个节点的minimax值来决定最优策略。MAX希望最大化minimax值，而MIN则相反

例如：

m是游戏树的最大深度，在每个节点存在b个有效走法。

如果搜索树极大，则minimax算法无法在有效时间内返回结果。因此我们又引入alpha-beta pruning算法来减少搜索节点。同时对节点进行采样、而非逐一搜索（i.e.,MCTS）

2.alpha-beta pruning算法

该算法是minimax算法的优化，剪去了不影响最终结果的分支，使得搜索路径变少。

剪枝过程：

Alpha值 <= reward(N) <= Beta值（其中reward（N）是节点N产生的收益）

每个节点有两个值，分别是Alpha值和Beta值，节点的Alpha值和Beata值在搜索过程中不断变化。其中，Alpha值从负无穷大逐渐增加，Beta值从正无穷大逐渐减少如果一个节点的Alpha值（MAX当前得到的最大收益）大于Beta值（MIN给对手的最小收益），则该节点的后续节点可剪枝。

本文借鉴于mooc 吴飞老师人工智能-模型与算法