博弈论（一）

在之前的讨论中，一场游戏只有一个智能体。而在博弈论中，智能体评估它们的决策如何与其他人的决策相互作用以产生不同的结果。

简单博弈

看一个具体的博弈游戏：

image

圆圈中的数字代表一个状态。L/R/M 代表智能体可采取的动作。叶子节点的数字代表智能体 A 的得分（B的得分是相反数)

首先 A 做出一个选择（动作），随后 B 做出一个动作，然后 A 可视情况再次做出一个动作。

博弈论一个基本前提是：假设所有玩家都想最大化自己的得分，并都可以正确做出最佳动作，并都相信其他玩家也会这样做。

这是博弈问题最简单的一种：两个玩家的零和有限确定性完美信息博弈。

两个玩家：顾名思义，就是在这个博弈游戏中只有2个玩家（智能体）。
零和：两个玩家获得的奖励（得分）之和是一个常量。（不一定为0）
有限性：显然，这场博弈的一切元素例如：状态、动作等都是有限的。
确定性：从 MDP 角度理解，即博弈中没有随机转换。从某一状态采取某一动作得到的结果是确定的。
完美信息：我们能够确定当前智能体所处的状态。

STRATEGIES（策略）

在 MDP 中有个名词叫 POLICIES （策略），它是状态到动作的映射。博弈论中有类似的概念，称为 STRATEGIES （策略），它是所有可能的状态到动作的映射。

对于 A 来说 (1→L, 4→L) 就是一个策略。不难看出，在这个特定的游戏中，A 有4个策略，B 有3个策略，如下：（这种策略被称为纯策略）

A:
(1→L, 4→L)  (1→L, 4→R)
(1→R, 4→L)  (1→R, 4→R)

B:
(2→L, 3→R)  (2→M, 3→R)  (2→R, 3→R)

我们可以以表格的形式写出这些策略，并在中间填入最后的得分。（由于B得分是A的相反数，所以这里省略B）

image

最终可以得到一个矩阵（红框部分），这个矩阵包含了此场博弈的一切信息，即：有了它我们不再需要一开始的博弈树了。

极小极大原理

试想这样一个游戏过程：

A 为了最大化得分，也许会选择策略 (L,L) 或策略 (L,R) ，也就是矩阵的前两行。因为只有这样才有可能得到最高分7.
然而 B 同样希望最大化自己的得分，所以在 A 先选择的情况下，B 自然会选择当前状态下对自己最有利的。例如当 A 选择 (L,L)，B 就会选择 (R,R). 最后 A 得分 -1.
于是 A 没有达到一开始的目标。

A 总是最大化得到的分数，而 B 总是试图最小化 A 可以得到的分数。所以得出这样一个结论：A 先手时必须要考虑会遭遇 B 最严酷的反制策略。所以选择 (L,L) 是非常不明智的。事实上若交换 AB 角色，结论是一样的。

在这个结论的指导下，A 要选择的并不是全局最大值，而是在 B 执行反制策略（找到极小值）后得到尽可能大的值。也就是：极大化极小值。相反，B 要找到极小化极大值。（因为值越小 B 得分越高）

所以正确的博弈过程是这样的：

A 选择 (L,R), B 选择 (M,R)，最后 A 得分3.
即使是 B 先手，B 也应该选择 (M,R)，随后 A 选择 (L,R)，最终 B 得分-3. 虽然 B 依然失败，但它已经尽可能拿到了最高的分数。

从这个过程可以得出一个结论：极大化极小值和极小化极大值最终的结果是一样的。

极小极大原理也就是 Von neumann 定理（冯诺依曼定理）。

不确定性的博弈

前面所述简单博弈具有确定性，现在我们取消这一约束。看一个具体的游戏：

image

和之前很类似，但 A 在第一个状态采取动作 L 之后，有0.5的概率获得4分，也有0.5的概率获得-20分。这就是不确定性。

同样的，只需要用概率乘以得分再求和，也可以写出一个博弈矩阵：

image

不难看出，Von neumann 定理在不确定博弈中依然有效。于是可以将它的适用范围推广到：两个玩家的零和有限完美信息博弈。

隐藏信息博弈

前面所述博弈是完美信息，现在我们取消这一约束成为两个玩家的零和有限隐藏信息博弈。

看一个具体的游戏：

A 摸一张卡片，可能是红色或黑色，概率各是50%. （对于 A 来说红色是惩罚黑色是奖励）
A 可以选择弃牌或保留。若弃牌则失去20元。
若 A 保留，B 可以弃权或要求亮牌。若 B 放弃则 A 获得10元。
若 B 要求亮牌，若是红色则Ａ失去40元；若是黑色 A 获得30元。
对于一个博彩游戏，A 失去也就是意味着 B 获得，所以是零和的。

image

因为 B 不知道 A 抽到的是什么颜色，故不知道自己处在哪一状态，也就是隐藏信息。

同样的可以得到一个矩阵：

image

不难看出，在这场博弈中，Von neumann 定理不再有效了，它无法在不同情况下得出一个确定的结果。

混合策略

混合策略与纯策略的区别就是，需要指定选择不同策略的概率。如此看，纯策略是特殊的混合策略，其选择某一策略的概率是100%.

令 A 选择留牌的概率是 p，那么当 B 选择弃权时，A 的预计收益是 $10p-5(1-p)=15p-5$ .
当 B 选择亮牌时，A 的预计收益是 $-5p+5(1-p)=-10p+5$ .

不难看出这是2个关于p的函数，可以把它画出来：

image

由于 B 始终希望最小化 A 的奖励，所以 A 实际的奖励函数应该是取最小的部分（下图红色部分），也就是极大化极小值。
同样的，黄色部分是极小化极大值。他们最终应该选取的点相同。

image

非零和

前面所述博弈是零和的，现在我们再取消这一约束成为两个玩家的非零和有限隐藏信息博弈。

同样，先看一个具体的博弈：

两个嫌疑人因抢劫被抓获，被隔离审讯。若其中一人背叛同伙而向警方检举另一个人，他将获得释放，被检举的人将获刑9个月。
若双方同时检举对方，则均判刑6个月。
若双方互相合作都不主动揭发，则均因证据不足被轻判为1个月。

类似地，可以表述为一个矩阵。但由于这里不是零和了，因此 AB 双方的得分都需要列出。

image

囚徒困境

显然，相互合作不揭发对于这个犯罪团伙是最好的方案。但实际上并非那么顺利。设想下面的情况：

对于 A 来讲，假设 B 选择合作，那么为了最大化自己利益 A 会选择检举；假设 B 选择检举，同样为了最大化自己利益，A 还是会检举。
对于 B 来讲情况是一样的，无论 A 如何选择 B 都会选择检举。

因此最终他们会互相检举从而均被判刑6个月，这不是想要的最佳方案。这被称为 囚徒困境。

NASH 均衡

NASH 均衡，英文 nash equilibrium ，也被音译为纳什均衡。

当且仅当对于所有的 n 个玩家，各自选择的每一项策略都使此玩家效用最大，即为 Nash 均衡。
更好理解的解释是：当所有玩家都知道其他玩家的策略，任意选择一名玩家允许他改变策略，他都没有理由改变，因为当前策略可以最大化效用。

Nash 均衡的定义适用于纯策略和混合策略。

严格控制

对于这个具体博弈，A 选择检举（第二行）总是要比合作（第一行）更有利（0>-1, -6>-9）。可以称为第二行严格控制第一行。

这也就意味着如果选择了第一行的任何数据，那么总是应该倾向于选择下一行，因为它更有利。

NASH 均衡的基本定理

在 n 个玩家的纯策略博弈中，如果淘汰所有经过严格控制的策略，只留下一组策略，那么这一组策略就是唯一的 Nash 均衡。
任何的 Nash 均衡都将在反复删减的严格劣势策略过程中留存下来。
如果玩家数量(n)是有限的，对于每一组策略，该组策略也是有限的。

连续囚徒困境博弈

在囚徒困境中，整个团体无法达成最佳策略。那么对于一个连续的囚徒困境博弈问题，是否可以通过先驱的博弈建立信任从而达到最佳呢？可惜答案也是否定的。

假设连续进行20场博弈，对于最后一场博弈来说，可以认为由于建立了信任，对方一定选择合作，基于最大化自己利益，这正是检举对方的好时机。因为双方都有这种想法，于是再次落入了囚徒困境。
因为第20次博弈结局已知，所以第19次博弈可看做是最后一次，根据归纳法不难看出，每一次博弈都将陷入囚徒困境。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270

博弈论（一）

简单博弈

STRATEGIES（策略）

极小极大原理

不确定性的博弈

隐藏信息博弈

混合策略

非零和

囚徒困境

NASH 均衡

严格控制

NASH 均衡的基本定理

连续囚徒困境博弈

推荐阅读更多精彩内容