45 - 演化博弈论

"不是最强的物种生存，也不是最聪明的，而是最适应变化的。"

引言

演化博弈论研究策略如何随时间演化：为什么合作出现？规范如何形成？文化如何演化？不假设完美理性，而是通过选择、学习、模仿实现演化。理解演化博弈论，能帮你理解长期趋势。本章探讨策略演化的规律。

传统博弈论 vs 演化博弈论

传统博弈论

假设：

完全理性
一次性博弈或有限次
计算均衡

问题：

如何达到均衡？
为什么选择这个均衡（多重均衡时）？

演化博弈论

假设：

有限理性（甚至无理性）
重复博弈，长期过程
通过选择、学习、模仿演化

优势：

解释均衡如何产生
选择稳定策略
符合生物和社会现实

演化稳定策略（ESS）

定义

演化稳定策略（Evolutionarily Stable Strategy, ESS）：

如果群体都采用这个策略
少数变异者无法入侵
策略稳定

数学定义：策略S是ESS，如果：

对任何变异策略S'
S对抗S的收益 ≥ S'对抗S的收益
或如果相等，S对抗S'的收益 > S'对抗S'的收益

鹰鸽博弈

场景：动物争夺资源

策略：

鹰（Hawk）：总是战斗
鸽（Dove）：总是退让

收益矩阵（假设资源价值V=2，战斗成本C=4）：

	鹰	鸽
鹰	(V-C)/2 = -1	V = 2
鸽	0	V/2 = 1

分析：

全鹰群体：平均收益-1（战斗成本高）
鸽子变异者：遇到鹰收益0 > -1，能入侵
全鸽群体：平均收益1
鹰变异者：遇到鸽收益2 > 1，能入侵

ESS：混合策略

部分鹰，部分鸽
或每个个体随机选择（概率混合）
平衡点：鹰比例 = V/C = 2/4 = 50%

以牙还牙（Tit-for-Tat, TFT）

场景：重复囚徒困境

策略：

第一次合作
之后复制对方上一次行为

Axelrod锦标赛：

邀请学者提交策略
计算机模拟重复博弈
结果：TFT获胜

TFT的优点：

善良（Nice）：首先合作
报复（Retaliatory）：对方背叛立即报复
宽容（Forgiving）：对方回归合作，立即原谅
清晰（Clear）：简单易懂

TFT是ESS吗？

在合作者群体中，TFT稳定
在背叛者群体中，TFT难入侵（初期吃亏）
需要一定比例的合作者才能演化出合作

合作的演化

合作的难题

囚徒困境：

个体理性：背叛
集体理性：合作
为什么现实中有合作？

合作演化的条件

条件1：重复博弈

一次博弈：背叛
重复博弈：合作可能（以牙还牙）
"未来的影子"（shadow of the future）

条件2：声誉

间接互惠
我帮你→别人看到→别人帮我
需要信息传播

条件3：亲缘选择

帮助亲属
共享基因
Hamilton法则：rB > C（r=亲缘系数，B=收益，C=成本）

条件4：群体选择

合作群体战胜自私群体
虽然群体内自私个体占优
但群体间竞争合作群体胜出

条件5：惩罚机制

第三方惩罚背叛者
维持合作

合作的脆弱性

问题1：误会

TFT遇到误会→报复循环
解决：更宽容策略（如Generous TFT）

问题2：剥削

有些策略专门剥削合作者
需要多样性防御

问题3：环境变化

环境改变→原有策略不再最优
需要适应能力

社会规范的形成

规范的演化

规范：社会约定的行为准则

例子：

排队
礼貌
诚实
驾驶靠右/靠左

演化机制：

协调博弈中多重均衡
一个均衡被随机选中
成为惯例
自我强化

协调博弈与惯例

场景：驾驶靠左还是靠右？

收益矩阵：

	左	右
左	1	0
右	0	1

两个纳什均衡：

都靠左
都靠右

演化：

初期随机
某个占优→更多人选择
形成惯例
稳定

路径依赖：

历史偶然性影响结果
英国靠左，美国靠右

规范的执行

内化：

人们接受规范为"对的"
违反规范感到内疚

社会惩罚：

违反规范被谴责
声誉损失

制度化：

规范变成法律
正式惩罚

文化演化

文化作为信息

文化：

通过学习传播的信息
语言、习俗、技术、信念

类比基因：

基因通过生物遗传
文化通过社会学习

模因（Meme）

概念（Dawkins）：

文化的基本单位
如基因一样复制、变异、选择

例子：

流行语
思想
旋律

传播：

吸引注意力
易记忆
易传播
适应环境

文化演化机制

纵向传播：

父母→子女
保守

横向传播：

同辈学习
快速

选择性模仿：

模仿成功者
模仿多数
模仿权威

创新：

新想法、新技术
变异

演化动力学

复制者动态（Replicator Dynamics）

模型：策略比例变化 ∝ 策略的相对收益

公式： dx/dt = x(π(x) - π̄)

x：策略比例
π(x)：策略收益
π̄：平均收益

含义：

收益高于平均→比例增加
收益低于平均→比例减少

演化轨迹

稳定点：

ESS：稳定，吸引邻近策略
不稳定均衡：排斥

周期：

某些博弈中，策略比例循环
如石头剪刀布

混沌：

复杂系统可能出现混沌
难以预测

空间结构与网络

空间博弈

场景：

个体在空间上分布（如棋盘）
只与邻居博弈

结果：

合作更容易演化
合作者聚集，互相支持
背叛者孤立

网络博弈

网络结构影响演化：

规则网络（如棋盘）
随机网络
小世界网络
无标度网络

发现：

网络异质性促进合作
高度节点（hub）起关键作用

现实应用

生物学

动物行为：

领地争夺（鹰鸽博弈）
求偶展示
群体合作（如蚂蚁）

免疫系统：

病原体与宿主的军备竞赛
共同演化

经济学

企业策略演化：

成功策略被模仿
失败企业退出
产业演化

市场均衡：

不是计算出的
是演化出的

社会学

社会规范：

诚实、互惠、公平
演化形成

语言演化：

词汇、语法、口音
社会选择

技术演化

标准竞争：

VHS vs Beta
Windows vs Mac
路径依赖

技术锁定：

QWERTY键盘
不是最优，但已锁定

多种群博弈

不同群体策略不同

例子：

性别之战
劳资博弈
买卖双方

模型：

两个群体
各自演化
相互影响

结果：

可能协同演化到均衡
也可能周期振荡

要点总结

要素	要点
ESS	演化稳定策略，抵抗变异入侵
鹰鸽博弈	混合策略ESS
以牙还牙	善良、报复、宽容、清晰
合作演化	重复博弈、声誉、亲缘、惩罚
社会规范	协调博弈、惯例、路径依赖
文化演化	模因、选择性模仿、创新
复制者动态	收益高→比例增加
空间/网络	结构促进合作

实战启示

长期视角：
- 策略演化需要时间
- 短期不利不代表长期失败
- 耐心等待
稳定性重要：
- 追求ESS策略
- 能抵抗变异
- 长期稳定
合作的维持：
- 重复博弈建立合作
- 声誉机制
- 适度惩罚
规范的力量：
- 社会规范自我强化
- 遵守规范获益
- 建立良好规范
路径依赖：
- 早期选择影响长期
- 技术、制度锁定
- 变革困难
网络效应：
- 利用网络传播
- 影响关键节点
- 聚集支持者
适应变化：
- 环境变化需要调整
- 保持多样性
- 持续演化

下一章预告：博弈论与人工智能——AI如何博弈、人机博弈的未来

思考题：

你观察到哪些社会规范的演化？
以牙还牙策略在现实中如何应用？
路径依赖如何影响你的选择？

引言​

传统博弈论 vs 演化博弈论​

传统博弈论​

演化博弈论​

演化稳定策略（ESS）​

定义​

鹰鸽博弈​

以牙还牙（Tit-for-Tat, TFT）​

合作的演化​

合作的难题​

合作演化的条件​

合作的脆弱性​

社会规范的形成​

规范的演化​

协调博弈与惯例​

规范的执行​

文化演化​

文化作为信息​

模因（Meme）​

文化演化机制​

演化动力学​

复制者动态（Replicator Dynamics）​

演化轨迹​

空间结构与网络​

空间博弈​

网络博弈​

现实应用​

生物学​

经济学​

社会学​

技术演化​

多种群博弈​

不同群体策略不同​

要点总结​

实战启示​

引言