跳到主要内容

45 - 演化博弈论

"不是最强的物种生存,也不是最聪明的,而是最适应变化的。"

引言

演化博弈论研究策略如何随时间演化:为什么合作出现?规范如何形成?文化如何演化?不假设完美理性,而是通过选择、学习、模仿实现演化。理解演化博弈论,能帮你理解长期趋势。本章探讨策略演化的规律。

传统博弈论 vs 演化博弈论

传统博弈论

假设

  • 完全理性
  • 一次性博弈或有限次
  • 计算均衡

问题

  • 如何达到均衡?
  • 为什么选择这个均衡(多重均衡时)?

演化博弈论

假设

  • 有限理性(甚至无理性)
  • 重复博弈,长期过程
  • 通过选择、学习、模仿演化

优势

  • 解释均衡如何产生
  • 选择稳定策略
  • 符合生物和社会现实

演化稳定策略(ESS)

定义

演化稳定策略(Evolutionarily Stable Strategy, ESS)

  • 如果群体都采用这个策略
  • 少数变异者无法入侵
  • 策略稳定

数学定义: 策略S是ESS,如果:

  • 对任何变异策略S'
  • S对抗S的收益 ≥ S'对抗S的收益
  • 或如果相等,S对抗S'的收益 > S'对抗S'的收益

鹰鸽博弈

场景:动物争夺资源

策略

  • 鹰(Hawk):总是战斗
  • 鸽(Dove):总是退让

收益矩阵(假设资源价值V=2,战斗成本C=4):

(V-C)/2 = -1V = 2
0V/2 = 1

分析

  • 全鹰群体:平均收益-1(战斗成本高)
  • 鸽子变异者:遇到鹰收益0 > -1,能入侵
  • 全鸽群体:平均收益1
  • 鹰变异者:遇到鸽收益2 > 1,能入侵

ESS:混合策略

  • 部分鹰,部分鸽
  • 或每个个体随机选择(概率混合)
  • 平衡点:鹰比例 = V/C = 2/4 = 50%

以牙还牙(Tit-for-Tat, TFT)

场景:重复囚徒困境

策略

  • 第一次合作
  • 之后复制对方上一次行为

Axelrod锦标赛

  • 邀请学者提交策略
  • 计算机模拟重复博弈
  • 结果:TFT获胜

TFT的优点

  1. 善良(Nice):首先合作
  2. 报复(Retaliatory):对方背叛立即报复
  3. 宽容(Forgiving):对方回归合作,立即原谅
  4. 清晰(Clear):简单易懂

TFT是ESS吗?

  • 在合作者群体中,TFT稳定
  • 在背叛者群体中,TFT难入侵(初期吃亏)
  • 需要一定比例的合作者才能演化出合作

合作的演化

合作的难题

囚徒困境

  • 个体理性:背叛
  • 集体理性:合作
  • 为什么现实中有合作?

合作演化的条件

条件1:重复博弈

  • 一次博弈:背叛
  • 重复博弈:合作可能(以牙还牙)
  • "未来的影子"(shadow of the future)

条件2:声誉

  • 间接互惠
  • 我帮你→别人看到→别人帮我
  • 需要信息传播

条件3:亲缘选择

  • 帮助亲属
  • 共享基因
  • Hamilton法则:rB > C(r=亲缘系数,B=收益,C=成本)

条件4:群体选择

  • 合作群体战胜自私群体
  • 虽然群体内自私个体占优
  • 但群体间竞争合作群体胜出

条件5:惩罚机制

  • 第三方惩罚背叛者
  • 维持合作

合作的脆弱性

问题1:误会

  • TFT遇到误会→报复循环
  • 解决:更宽容策略(如Generous TFT)

问题2:剥削

  • 有些策略专门剥削合作者
  • 需要多样性防御

问题3:环境变化

  • 环境改变→原有策略不再最优
  • 需要适应能力

社会规范的形成

规范的演化

规范:社会约定的行为准则

例子

  • 排队
  • 礼貌
  • 诚实
  • 驾驶靠右/靠左

演化机制

  • 协调博弈中多重均衡
  • 一个均衡被随机选中
  • 成为惯例
  • 自我强化

协调博弈与惯例

场景:驾驶靠左还是靠右?

收益矩阵

10
01

两个纳什均衡

  • 都靠左
  • 都靠右

演化

  • 初期随机
  • 某个占优→更多人选择
  • 形成惯例
  • 稳定

路径依赖

  • 历史偶然性影响结果
  • 英国靠左,美国靠右

规范的执行

内化

  • 人们接受规范为"对的"
  • 违反规范感到内疚

社会惩罚

  • 违反规范被谴责
  • 声誉损失

制度化

  • 规范变成法律
  • 正式惩罚

文化演化

文化作为信息

文化

  • 通过学习传播的信息
  • 语言、习俗、技术、信念

类比基因

  • 基因通过生物遗传
  • 文化通过社会学习

模因(Meme)

概念(Dawkins):

  • 文化的基本单位
  • 如基因一样复制、变异、选择

例子

  • 流行语
  • 思想
  • 旋律

传播

  • 吸引注意力
  • 易记忆
  • 易传播
  • 适应环境

文化演化机制

纵向传播

  • 父母→子女
  • 保守

横向传播

  • 同辈学习
  • 快速

选择性模仿

  • 模仿成功者
  • 模仿多数
  • 模仿权威

创新

  • 新想法、新技术
  • 变异

演化动力学

复制者动态(Replicator Dynamics)

模型: 策略比例变化 ∝ 策略的相对收益

公式: dx/dt = x(π(x) - π̄)

  • x:策略比例
  • π(x):策略收益
  • π̄:平均收益

含义

  • 收益高于平均→比例增加
  • 收益低于平均→比例减少

演化轨迹

稳定点

  • ESS:稳定,吸引邻近策略
  • 不稳定均衡:排斥

周期

  • 某些博弈中,策略比例循环
  • 如石头剪刀布

混沌

  • 复杂系统可能出现混沌
  • 难以预测

空间结构与网络

空间博弈

场景

  • 个体在空间上分布(如棋盘)
  • 只与邻居博弈

结果

  • 合作更容易演化
  • 合作者聚集,互相支持
  • 背叛者孤立

网络博弈

网络结构影响演化

  • 规则网络(如棋盘)
  • 随机网络
  • 小世界网络
  • 无标度网络

发现

  • 网络异质性促进合作
  • 高度节点(hub)起关键作用

现实应用

生物学

动物行为

  • 领地争夺(鹰鸽博弈)
  • 求偶展示
  • 群体合作(如蚂蚁)

免疫系统

  • 病原体与宿主的军备竞赛
  • 共同演化

经济学

企业策略演化

  • 成功策略被模仿
  • 失败企业退出
  • 产业演化

市场均衡

  • 不是计算出的
  • 是演化出的

社会学

社会规范

  • 诚实、互惠、公平
  • 演化形成

语言演化

  • 词汇、语法、口音
  • 社会选择

技术演化

标准竞争

  • VHS vs Beta
  • Windows vs Mac
  • 路径依赖

技术锁定

  • QWERTY键盘
  • 不是最优,但已锁定

多种群博弈

不同群体策略不同

例子

  • 性别之战
  • 劳资博弈
  • 买卖双方

模型

  • 两个群体
  • 各自演化
  • 相互影响

结果

  • 可能协同演化到均衡
  • 也可能周期振荡

要点总结

要素要点
ESS演化稳定策略,抵抗变异入侵
鹰鸽博弈混合策略ESS
以牙还牙善良、报复、宽容、清晰
合作演化重复博弈、声誉、亲缘、惩罚
社会规范协调博弈、惯例、路径依赖
文化演化模因、选择性模仿、创新
复制者动态收益高→比例增加
空间/网络结构促进合作

实战启示

  1. 长期视角

    • 策略演化需要时间
    • 短期不利不代表长期失败
    • 耐心等待
  2. 稳定性重要

    • 追求ESS策略
    • 能抵抗变异
    • 长期稳定
  3. 合作的维持

    • 重复博弈建立合作
    • 声誉机制
    • 适度惩罚
  4. 规范的力量

    • 社会规范自我强化
    • 遵守规范获益
    • 建立良好规范
  5. 路径依赖

    • 早期选择影响长期
    • 技术、制度锁定
    • 变革困难
  6. 网络效应

    • 利用网络传播
    • 影响关键节点
    • 聚集支持者
  7. 适应变化

    • 环境变化需要调整
    • 保持多样性
    • 持续演化

下一章预告:博弈论与人工智能——AI如何博弈、人机博弈的未来

思考题

  1. 你观察到哪些社会规范的演化?
  2. 以牙还牙策略在现实中如何应用?
  3. 路径依赖如何影响你的选择?