纳什均衡¶

纳什均衡（或者纳什平衡），Nash equilibrium ，又称为非合作博弈均衡，是人工智能博弈论方法的“基石”。

所谓纳什均衡，指的是参与者的一种策略组合，在该策略上，任何参与人单独改变策略都不会得到好处，即每个人的策略都是对其他人的策略的最优反应。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

经典的例子就是囚徒困境：

**背景：**一个案子的两个嫌疑犯A和B被警官分开审讯，所以A和B没有机会进行串供的；

**奖惩：**警官分别告诉A和B，如果都不招供，则各判3年；如果两人均招供，均判5年；如果你招供、而对方不招供，则你判1年，对方10年。

**结果：**A和B都选择招供，各判5年，这个便是此时的纳什均衡。

从奖惩说明看都不招供才是最优解，判刑最少。其实并不是这样，A和B无法沟通，于是从各自的利益角度出发：

嫌疑犯A想法：

所以无论B是否招供，A只要招供了，对A而言是最优的策略。

同上，嫌疑犯B想法也是相同的，都依据各自的理性而选择招供，这种情况就被称为纳什均衡点。