🔒 囚徒困境与纳什均衡
🚔 囚徒困境(Prisoner's Dilemma)
经典的故事
两名嫌疑人被警方逮捕。每个人都被关在单独的房间里,并被提供一项交易:
- 如果两人都保持沉默(合作)— 每人将获刑一年
- 如果两人都告发 — 每人将获刑5 年
- 如果一人告发而另一人沉默 — 告发者无罪释放,沉默者获刑10 年
支付矩阵(以服刑年数表示 — 用负数)
| 囚徒 B | |||
|---|---|---|---|
| 沉默 | 告发 | ||
| 囚徒 A | 沉默 | (-1, -1) | (-10, 0) |
| 告发 | (0, -10) | (-5, -5) | |
🔍 困境的分析
从囚徒 A 的视角来看:
- 如果 B 沉默:A 偏好告发(0 > -1)
- 如果 B 告发:A 偏好告发(-5 > -10)
⇒ 告发是 A 的占优策略!
从囚徒 B 的视角来看:
- 如果 A 沉默:B 偏好告发(0 > -1)
- 如果 A 告发:B 偏好告发(-5 > -10)
⇒ 告发同样也是 B 的占优策略!
结果:两名囚徒都告发,每人获刑 5 年
尽管如果两人都保持沉默,他们本来只需获刑一年!
尽管如果两人都保持沉默,他们本来只需获刑一年!
💡 重要的结论
囚徒困境展示了这样一种情况:个体的理性导致了一个从集体角度来看并非最优的结果。
均衡(-5, -5)相对于(-1, -1)而言是帕累托劣等的。
⚖️ 纳什均衡(Nash Equilibrium)
定义
纳什均衡是这样一种策略组合:在其他参与者不改变各自策略的前提下,没有任何参与者能够通过单方面改变自己的策略来改善自己的处境。
🏆 以约翰·纳什命名 — 一位经济学家和诺贝尔奖得主
🧮 如何寻找纳什均衡?
"最佳反应"方法
步骤 1:针对参与者 B 的每一种策略,找出 A 的最佳反应(用圆圈标记)
步骤 2:针对参与者 A 的每一种策略,找出 B 的最佳反应(用下划线标记)
步骤 3:同时有圆圈和下划线的单元格就是纳什均衡
例子:协调博弈
| 参与者 B | |||
|---|---|---|---|
| 左 | 右 | ||
| 参与者 A | 左 | (2, 2) | (0, 0) |
| 右 | (0, 0) | (1, 1) | |
🔍 分析:
检查(左,左):
- A 会想要偏离吗?如果 A 改选右,他将得到 0 而非 2 ⇒ 不会!
- B 会想要偏离吗?如果 B 改选右,他将得到 0 而非 2 ⇒ 不会!
⇒ (左,左)是一个纳什均衡!
检查(右,右):
- A 会想要偏离吗?如果 A 改选左,他将得到 0 而非 1 ⇒ 不会!
- B 会想要偏离吗?如果 B 改选左,他将得到 0 而非 1 ⇒ 不会!
⇒ (右,右)同样也是一个纳什均衡!
🎯 重要知识点
- 一个博弈中可以存在多个纳什均衡
- 也可能存在零个纳什均衡(在纯策略中)
- 占优策略下的均衡总是同时也是纳什均衡
- 纳什均衡不一定在社会层面上有效率(如同囚徒困境中那样)
🔄 经济应用
来自现实世界的例子:
- 价格战:两家公司在价格上相互竞争
- 广告:面对竞争者应该在广告上投入多少
- 拍卖:在拍卖中应该出价多少
- 谈判:谈判中的策略
- 卡特尔:为什么卡特尔往往会瓦解
📝 总结
- 囚徒困境 — 两位参与者尽管行为理性,却得到了非最优结果的情况
- 纳什均衡 — 没有任何参与者愿意单方面改变自己策略的状态
- 纳什均衡不一定是唯一的,也不一定是有效率的
- 每一个占优策略下的均衡同时也是纳什均衡