纳什均衡

纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是人工智能博弈论方法的“基石”。

所谓纳什均衡,指的是参与者的一种策略组合,在该策略上,任何参与人单独改变策略都不会得到好处,即每个人的策略都是对其他人的策略的最优反应。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。

经典的例子就是囚徒困境

​ **背景:**一个案子的两个嫌疑犯A和B被警官分开审讯,所以A和B没有机会进行串供的;

​ **奖惩:**警官分别告诉A和B,如果都不招供,则各判3年;如果两人均招供,均判5年;如果你招供、而对方不招供,则你判1年,对方10年。

​ **结果:**A和B都选择招供,各判5年,这个便是此时的纳什均衡。

从奖惩说明看都不招供才是最优解,判刑最少。其实并不是这样,A和B无法沟通,于是从各自的利益角度出发:

嫌疑犯A想法:

  • 如果B招供,如果我招供只判5年,不招供的话就判10年;

  • 如果B不招供,如果我招供只判1年,不招供的话就判3年;

所以无论B是否招供,A只要招供了,对A而言是最优的策略。

同上,嫌疑犯B想法也是相同的,都依据各自的理性而选择招供,这种情况就被称为纳什均衡点。