45 - 演化博弈论
"不是最强的物种生存,也不是最聪明的,而是最适应变化的。"
引言
演化博弈论研究策略如何随时间演化:为什么合作出现?规范如何形成?文化如何演化?不假设完美理性,而是通过选择、学习、模仿实现演化。理解演化博弈论,能帮你理解长期趋势。本章探讨策略演化的规律。
传统博弈论 vs 演化博弈论
传统博弈论
假设:
- 完全理性
- 一次性博弈或有限次
- 计算均衡
问题:
- 如何达到均衡?
- 为什么选择这个均衡(多重均衡时)?
演化博弈论
假设:
- 有限理性(甚至无理性)
- 重复博弈,长期过程
- 通过选择、学习、模仿演化
优势:
- 解释均衡如何产生
- 选择稳定策略
- 符合生物和社会现实
演化稳定策略(ESS)
定义
演化稳定策略(Evolutionarily Stable Strategy, ESS):
- 如果群体都采用这个策略
- 少数变异者无法入侵
- 策略稳定
数学定义: 策略S是ESS,如果:
- 对任何变异策略S'
- S对抗S的收益 ≥ S'对抗S的收益
- 或如果相等,S对抗S'的收益 > S'对抗S'的收益
鹰鸽博弈
场景:动物争夺资源
策略:
- 鹰(Hawk):总是战斗
- 鸽(Dove):总是退让
收益矩阵(假设资源价值V=2,战斗成本C=4):
| 鹰 | 鸽 | |
|---|---|---|
| 鹰 | (V-C)/2 = -1 | V = 2 |
| 鸽 | 0 | V/2 = 1 |
分析:
- 全鹰群体:平均收益-1(战斗成本高)
- 鸽子变异者:遇到鹰收益0 > -1,能入侵
- 全鸽群体:平均收益1
- 鹰变异者:遇到鸽收益2 > 1,能入侵
ESS:混合策略
- 部分鹰,部分鸽
- 或每个个体随机选择(概率混合)
- 平衡点:鹰比例 = V/C = 2/4 = 50%
以牙还牙(Tit-for-Tat, TFT)
场景:重复囚徒困境
策略:
- 第一次合作
- 之后复制对方上一次行为
Axelrod锦标赛:
- 邀请学者提交策略
- 计算机模拟重复博弈
- 结果:TFT获胜
TFT的优点:
- 善良(Nice):首先合作
- 报复(Retaliatory):对方背叛立即报复
- 宽容(Forgiving):对方回归合作,立即原谅
- 清晰(Clear):简单易懂
TFT是ESS吗?
- 在合作者群体中,TFT稳定
- 在背叛者群体中,TFT难入侵(初期吃亏)
- 需要一定比例的合作者才能演化出合作
合作的演化
合作的难题
囚徒困境:
- 个体理性:背叛
- 集体理性:合作
- 为什么现实中有合作?
合作演化的条件
条件1:重复博弈
- 一次博弈:背叛
- 重复博弈:合作可能(以牙还牙)
- "未来的影子"(shadow of the future)
条件2:声誉
- 间接互惠
- 我帮你→别人看到→别人帮我
- 需要信息传播
条件3:亲缘选择
- 帮助亲属
- 共享基因
- Hamilton法则:rB > C(r=亲缘系数,B=收益,C=成本)
条件4:群体选择
- 合作群体战胜自私群体
- 虽然群体内自私个体占优
- 但群体间竞争合作群体胜出
条件5:惩罚机制
- 第三方惩罚背叛者
- 维持合作
合作的脆弱性
问题1:误会
- TFT遇到误会→报复循环
- 解决:更宽容策略(如Generous TFT)
问题2:剥削
- 有些策略专门剥削合作者
- 需要多样性防御
问题3:环境变化
- 环境改变→原有策略不再最优
- 需要适应能力
社会规范的形成
规范的演化
规范:社会约定的行为准则
例子:
- 排队
- 礼貌
- 诚实
- 驾驶靠右/靠左
演化机制:
- 协调博弈中多重均衡
- 一个均衡被随机选中
- 成为惯例
- 自我强化
协调博弈与惯例
场景:驾驶靠左还是靠右?
收益矩阵:
| 左 | 右 | |
|---|---|---|
| 左 | 1 | 0 |
| 右 | 0 | 1 |
两个纳什均衡:
- 都靠左
- 都靠右
演化:
- 初期随机
- 某个占优→更多人选择
- 形成惯例
- 稳定
路径依赖:
- 历史偶然性影响结果
- 英国靠左,美国靠右
规范的执行
内化:
- 人们接受规范为"对的"
- 违反规范感到内疚
社会惩罚:
- 违反规范被谴责
- 声誉损失
制度化:
- 规范变成法律
- 正式惩罚
文化演化
文化作为信息
文化:
- 通过学习传播的信息
- 语言、习俗、技术、信念
类比基因:
- 基因通过生物遗传
- 文化通过社会学习
模因(Meme)
概念(Dawkins):
- 文化的基本单位
- 如基因一样复制、变异、选择
例子:
- 流行语
- 思想
- 旋律
传播:
- 吸引注意力
- 易记忆
- 易传播
- 适应环境
文化演化机制
纵向传播:
- 父母→子女
- 保守
横向传播:
- 同辈学习
- 快速
选择性模仿:
- 模仿成功者
- 模仿多数
- 模仿权威
创新:
- 新想法、新技术
- 变异
演化动力学
复制者动态(Replicator Dynamics)
模型: 策略比例变化 ∝ 策略的相对收益
公式: dx/dt = x(π(x) - π̄)
- x:策略比例
- π(x):策略收益
- π̄:平均收益
含义:
- 收益高于平均→比例增加
- 收益低于平均→比例减少
演化轨迹
稳定点:
- ESS:稳定,吸引邻近策略
- 不稳定均衡:排斥
周期:
- 某些博弈中,策略比例循环
- 如石头剪刀布
混沌:
- 复杂系统可能出现混沌
- 难以预测
空间结构与网络
空间博弈
场景:
- 个体在空间上分布(如棋盘)
- 只与邻居博弈
结果:
- 合作更容易演化
- 合作者聚集,互相支持
- 背叛者孤立
网络博弈
网络结构影响演化:
- 规则网络(如棋盘)
- 随机网络
- 小世界网络
- 无标度网络
发现:
- 网络异质性促进合作
- 高度节点(hub)起关键作用
现实应用
生物学
动物行为:
- 领地争夺(鹰鸽博弈)
- 求偶展示
- 群体合作(如蚂蚁)
免疫系统:
- 病原体与宿主的军备竞赛
- 共同演化
经济学
企业策略演化:
- 成功策略被模仿
- 失败企业退出
- 产业演化
市场均衡:
- 不是计算出的
- 是演化出的
社会学
社会规范:
- 诚实、互惠、公平
- 演化形成
语言演化:
- 词汇、语法、口音
- 社会选择
技术演化
标准竞争:
- VHS vs Beta
- Windows vs Mac
- 路径依赖
技术锁定:
- QWERTY键盘
- 不是最优,但已锁定
多种群博弈
不同群体策略不同
例子:
- 性别之战
- 劳资博弈
- 买卖双方
模型:
- 两个群体
- 各自演化
- 相互影响
结果:
- 可能协同演化到均衡
- 也可能周期振荡
要点总结
| 要素 | 要点 |
|---|---|
| ESS | 演化稳定策略,抵抗变异入侵 |
| 鹰鸽博弈 | 混合策略ESS |
| 以牙还牙 | 善良、报复、宽容、清晰 |
| 合作演化 | 重复博弈、声誉、亲缘、惩罚 |
| 社会规范 | 协调博弈、惯例、路径依赖 |
| 文化演化 | 模因、选择性模仿、创新 |
| 复制者动态 | 收益高→比例增加 |
| 空间/网络 | 结构促进合作 |
实战启示
-
长期视角:
- 策略演化需要时间
- 短期不利不代表长期失败
- 耐心等待
-
稳定性重要:
- 追求ESS策略
- 能抵抗变异
- 长期稳定
-
合作的维持:
- 重复博弈建立合作
- 声誉机制
- 适度惩罚
-
规范的力量:
- 社会规范自我强化
- 遵守规范获益
- 建立良好规范
-
路径依赖:
- 早期选择影响长期
- 技术、制度锁定
- 变革困难
-
网络效应:
- 利用网络传播
- 影响关键节点
- 聚集支持者
-
适应变化:
- 环境变化需要调整
- 保持多样性
- 持续演化
下一章预告:博弈论与人工智能——AI如何博弈、人机博弈的未来
思考题:
- 你观察到哪些社会规范的演化?
- 以牙还牙策略在现实中如何应用?
- 路径依赖如何影响你的选择?