博弈论基础笔记

总览

课程成绩

1、线上单元测试32分(每单元4题，题型有单选、多选、判断、填空题。每题1分，客观题，题库随机抽题)
2、线上讨论8分(讨论题2题，每题回帖100字以上)
3、线上期末考试40分(客观题40题，全覆盖，题库随机抽题)
4、课后作业20分(主观题2题，线上提交，老师批改）

【ddl为结课后一周，实际上可以全部留到最后一周做完】

教学概况

授课老师：蒋文华，浙江大学公共管理学院城市管理和发展系，1991年开始从事高校教学。
不点名，没有考勤分数。一些小测题会和上课实际内容相关，但题库疑似每年不改(所以不去其实也没事）。
上课会玩发红包游戏，基本10元以内，自愿参加。

第一讲概述

一、何为“博弈”

博：博览全局；弈：对弈棋局。指在一定规则约束下，基于直接相互作用环境，各参与人依据所掌握信息，选择策略实现利益最大化。

博弈是指在一定的游戏规则约束下，基于直接相互作用的环境条件，各参与人依据所掌握的信息，选择各自的策略（行动），以实现利益最大化的过程。

博弈就是你中有我，我中有你。由于直接相互作用，每个博弈参与者的得益不仅取决于自己采取的策略(行动)，还取决于其他博弈参与者所采取的策略(行动)。博弈的核心在于基于整体思维基础上的理性换位思考，你应当用他人的得益去推测他人的策略(行动)，从而选择最有利于自己的策略(行动)。

博弈论(game theory)——一是一种研究人们怎么做策略(行动)选择及其均衡结果会是什么的理论。

博弈双方需博览全局(即考虑整体局势)并对弈棋局(采取具体行动)
各参与人的决策存在直接相互作用（一个参与人的变化会引起其他参与人的变化）
利益关系可以是对立的竞争关系，也可以是一致的合作关系
博弈既可以是竞争，也可以是合作！利益对立时竞争，利益一致时合作。
双赢是合作的结果（利益一致），单赢是竞争的结果（利益对立）。
世上有两种博弈：有限游戏以取胜为目的，无限游戏以共赢为目的。
市场经济本质是通过卖者之间（买者之间）的竞争，实现买卖双方的合作。
商业竞争不以消灭对手为目的，而更像体育竞技，有对手无敌手。
失败者的教训是社会财富创造的重要源泉。
选对市场(对手)比选对策略更重要（股市/房市），选对博弈(game)比选对策略更重要。
学习博弈论有助于我们更好地与他人合作，教育的最终目标是激发潜能和善意。

二、发展简史

博弈论一开始是经济学（寡头竞争）的重要分析工具，现在已经发展成各门社会科学(管理学、公共管理学、政治学、法学、社会学等)的基本分析方法和重要研究工具。30年来共有20位经济学家因在博弈论及直接相关领域(如激励理论、拍卖理论)的贡献而获得诺贝尔经济学奖(1994、1996、2001、2005、2007、2012、2014、2016、2020年)。

最初探索

古诺模型（Cournot Model，1838年）：研究双寡头垄断市场中企业产量决策的模型，企业以各自在同一时间内相互独立的产量作为决策变量。
伯川德模型（Bertrand Model，1883年）：与古诺模型不同，企业把产品的价格而非产量作为竞争手段。其结论即伯川德悖论（Bertrand Paradox）表明，在完全竞争市场中，寡头企业会相互削价，直至价格等于边际成本，长期经济利润为零。
斯塔克尔伯格模型（Stackelberg Model，1934年）：动态博弈模型，分析双寡头市场竞争中企业间行动次序的区别，领导者厂商决定产量后，跟随者厂商根据领导者产量决定自身产量。

诞生与发展

20世纪40年代的社会变化（寡头竞争、世界大战）促使对系统研究方法的需求。
约翰·冯·诺依曼（John Von Neumann）和摩根斯坦发表《博弈论和经济行为》（1944年），标志博弈论正式诞生。
约翰·福布斯·纳什（John Forbes Nash）提出纳什均衡概念，对博弈论进行发扬光大。以博弈论创始人纳什为原型的电影：《美丽心灵》。

后来的发展方向包括对纳什均衡的弱化、精炼、基本假设研究及应用研究。

第二讲术语解读和基本假设

一、术语解读

博弈论的基本术语

参与人（Players）：博弈中的决策主体，如企业、国家或个人。
信息（Information）：参与人对博弈的知识，包括其他参与人的特征、策略和收益等。
行动（Actions）：参与人可选择的变量，如出价、产量等。
策略（Strategies）：参与人的行动规则，即在行动前准备好的完整行动方案。
损益（Payoffs）：参与人的得与失，是所有参与人策略的多元函数。
结局（Outcome）：所有参与人选择策略后的结果。
均衡（Equilibrium）：所有参与人的最优策略组合，此时无人能通过改变策略增加收益(又称“僵局”)。为局外人(研究者)所关心。
博弈规则（Rules of the Game）：参与人(players)、行动(actions)、损益(payoffs)和信息(information)统称为博弈规则。简写为PAPI。

规则是一种人为的限制，对资格(行为主体)的限制，对行动空间(选择空间)的限制，对信息空间的限制，并建立起行动与损益之间的映射关系。

作为动词的博弈是指参与人在给定的博弈中选择策略及行动。作为名词的博弈(game)是三个集合的集合：参与人集合+策略空间集合+损益函数的集合。博弈G=[S，…，Sn:U, …，Un]

二、博弈分类

合作博弈与非合作博弈

合作博弈（Cooperative Game）：参与者能达成有约束力的协议，共同选择有利策略。
非合作博弈（Non-cooperative Game）：参与者无法达成此类协议，但其中也可存在合作关系。

静态博弈与动态博弈

静态博弈（Static Game）：参与者同时选择行动，或虽非同时但逻辑上同时。
动态博弈（Dynamic Game）：参与者行动有先后顺序，后行动者可观察先行动者的行动。

特别提示：

静态博弈中，你是game的taker（接受者）。
动态博弈中，你既是当下game的taker，也是后续game的maker（创造者）。
博弈论让我们拥有动态思维：果上随缘，因上努力。

基于信息状况的分类

完美信息（Perfect Information）：动态博弈中无外部和策略不确定性，每个信息集都是单点集。
不完美信息（Imperfect Information）：存在某种不确定性，静态博弈一定是不完美信息。
不完全信息（Incomplete Information）：事前存在不确定性，与完全信息相对。
对称信息（Symmetric Information）：所有参与者拥有相同信息。
不对称信息（Asymmetric Information）：参与者拥有不同信息。

零和博弈与非零和博弈

零和博弈（Zero-sum Game）：博弈前后损益总和相等，如赌博、金融市场。
非零和博弈（Non-zero-sum Game）：博弈后损益总和大于或小于初始总和，分为正和或负和。

eg:

打麻将：家里打——正和；棋牌室打——负和
买彩票、炒股：负和（大部分人永远是亏的）

特别提示：不玩负和游戏，少玩零和游戏，多玩正和游戏。

三、基本假设

理性假设

认知理性：
- 人是自我利益的判断者。
- 偏好具备完备性、传递性和凸性（综合激励）。
行为理性：
- 自我利益的追求者（行为者）。
- 追求利益最大化（期望效用最大化），但期望效用和期望收益不一定相同。

特别提示：

两利相权取其重，两害相权取其轻。
顾客需要的不是便宜，而是占到了便宜。

共同知识假设

共同知识（Common Knowledge）：各参与人在无穷递归意义上均知悉的事实。不同于共有知识（Mutual Knowledge），共同知识需要信息在参与者间达到无限层次的相互知晓。

特别提示：

理性共识：参与者对博弈规则和彼此理性有共识。
规则共识：参与者对博弈的具体规则有共识。

第三讲囚犯困境和破解之道

一、囚犯困境

囚犯困境是博弈论中的经典例子，展示个体理性选择可能导致集体非理性结果。

基本场景如下：
两名犯罪嫌疑人共同作案后被警方抓获，但警方证据不足，只能将他们隔离审讯，分别提出相同的交易条件：
如果两人都坦白交代犯罪事实，各判有期徒刑5年；
如果一方坦白而另一方抵赖，则坦白者因立功表现将刑期减至1年，而抵赖者因证据确凿将被判重刑10年；
如果两人都抵赖，警方只能以较轻的证据不足罪名各判1年有期徒刑。
在这种情况下，每个囚犯都有两种策略选择：坦白或抵赖。无论对方作何选择，对个人最有利的策略都是坦白，这就是所谓的占优策略。然而，当双方都选择占优策略坦白时，最终结果却是各判5年，比相互抵赖各判1年的结果要差。这体现了个体理性选择与集体理性结果之间的冲突，是囚犯困境的核心所在。

其基本结构如下：

	坦白	抗拒
坦白	P, P	T, S
抗拒	S, T	R, R

其中，T（temptation）> R（reward）> P（punishment）> S（sucker）。

形成原因 ：囚徒困境的根本原因在于私人成本与社会成本的差异，即个人行为的负外部性。个体理性选择导致了集体非理性结果，双方都选择占优策略，却导致更差的结果。

特别提示：

表面上看囚犯对自身利益的追求是导致囚犯困境的原因。然而，真正的原因在于：囚犯们在追求自身利益的同时，是以更多地损害他人利益为代价。
囚犯困境的根本原因在于：私人成本与社会成本的差异，即个人行为的（强）负外部性。

占优策略

占优策略 ：无论其他参与人采取什么策略，某个参与人的某种策略都能给他带来比其他策略更大的收益，该策略就是他的占优策略。在囚徒困境中，坦白就是每个囚徒的占优策略。

占优策略均衡 ：是比纳什均衡更严苛的一种均衡。如果无论其他参与人采取什么策略，每个参与人都有唯一的占优策略，那么这些占优策略组合起来，就构成占优策略均衡。囚徒困境是占优策略均衡的经典例子。

纳什均衡

纳什均衡描述了一种在多人决策中的稳定状态。在这个状态下，每个参与者都选择了针对其他参与者策略的最佳应对策略。假设有一群人参与博弈，每个人都需要选择自己的策略。当所有其他人的策略都确定后，没有任何一个人可以通过改变自己的策略来获得更好的结果。也就是说，每个人都认为自己已经做出了最优的选择，基于其他人的行为。此时，这个策略组合就是一个纳什均衡。

对比与分析
- 占优策略 适用于任何情况下都优于其他策略，不需要考虑其他参与人的策略选择。
- 纳什均衡 则需要考虑其他参与人的策略，并在此基础上选择最优策略。
- 占优策略均衡是一种特殊的纳什均衡，但并非所有纳什均衡都是占优策略均衡。
- 占优策略均衡不需要理性共识，纳什均衡需要理性共识。
  - 占优策略均衡不需要理性共识，即不需要假设其他参与人是理性的；而纳什均衡需要理性共识，即每个参与人都假设其他参与人是理性的，并且这种理性是共同知识。

二、如何破解囚徒困境

破解之道包括道德教化、制度建设和温故知新（如重复博弈）。

特别提示：

损人利己和损己利人本质上是一样的，是一个硬币的正反两面；从一方来看是损己利人的行为，在另一方来看是损人利己的行为，问题的关键是所损（失）的部分和所利（得）的部分哪个更多。（盗窃与抢劫）。
道德教化需长期保持一定比例的利他主义者以维持社会稳定。
制度建设如圈地运动减少负外部性、人民公社的自由退社权、第三方执行机制等。
重复博弈可让历史指导未来，学习博弈论课程有助于理解其中规律。
民主必须与法治（而非仅仅是法制）相辅相成，才能避免多数人的暴政。
国家理论指出，人类社会发展中的交易执行方式可分为基于道德自律、相互制约和第三方监督三类，而国家的出现与第三方监督密切相关。

第四讲万元陷阱和智猪博弈

一、万元陷阱

万元陷阱是耶鲁大学经济学家苏必克发明的拍卖游戏，其规则是将10000元进行英国式拍卖，出价最高者获得该笔钱，同时出价第二高者需支付其出价金额。这个游戏常导致参与者陷入不断加价的陷阱，最终付出沉重代价。

自古以来，人类为捕杀动物所设的陷阱，有三个特征：
1.有一个明显的诱饵。
2.通往诱饵之路是单向的，可进不可出。
3.越想挣脱，就越陷越深。
4.只要有沉没成本就会有万元陷阱

社会心理学家泰格(A.Teger)对参加拍卖游戏的人加以分析，发现掉入‘陷阱’的人通常有两个动机：
一是经济（理性）的、二是非经济（感性）的。
经济动机：渴望赢得钞票、想赢回他的损失、想避免更多的损失
非经济动机：渴望挽回面子、证明自己是最好的玩家及处罚对手等。

心理学家鲁宾(J.E.Rubin)的建议是：
1、确立你投入的极限及预先的约定：譬如投资多少钱或多少时间？
2、极限一经确立，就要坚持到底。（止损）——止盈容易止损难
3、自己打定主意，不必看别人。
——学会止损，会让你活的更久
止损难的原因：贴现、人对亏损和盈利的敏感程度不同——一旦亏了就会偏好风险

特别提示：

序位竞争（如排名赛）容易产生万元陷阱。
竞技体育是典型的万元陷阱。
掉入陷阱的人通常受经济动机（如渴望赢得钞票、挽回损失）和非经济动机（如挽回面子、证明自己）驱动。
心理学家建议确立投入极限并坚持止损，避免目标偏移。

二、智猪博弈

智猪博弈描述了一种搭便车现象，其中一方付出代价而双方共享收益。

场景如下：
假设有一间猪圈，圈里养着一头大猪和一头小猪。猪圈的一头有一个按钮，另一头则放置着饲料槽。按动按钮后，饲料槽处会有饲料流入。但按下按钮需要付出一定的成本，比如耗费体力或者时间。
小猪和大猪都面临一个选择：要么去按按钮，要么在饲料槽处等待。如果小猪去按按钮，大猪在饲料槽等待，那么大猪将独享绝大部分饲料，而小猪只能在按完按钮后赶到饲料槽，吃剩下的一小部分饲料；如果大猪去按按钮，小猪在饲料槽等待，小猪将能独享绝大部分饲料，而大猪在按完按钮后只能吃剩下的一小部分；如果两只猪都选择等待，那么饲料槽处不会有饲料流入，两只猪都吃不到饲料；如果两只猪都选择去按按钮，那么它们都会付出成本，但饲料流入后它们都能吃到一些饲料。

其基本结构如下：

	小猪按	小猪等
大猪按	9, 1	7, 3
大猪等	6, 4	0, 0

特点：

多劳不多得：小猪选择等待，大猪去按按钮，最终小猪获得6单位收益，大猪获得4单位收益。
个体理性与集体理性相冲突：小猪有动机等待，而大猪不得不按按钮，导致大猪付出更多却收益较少。

eg:

山寨现象：盗版产品可以看作是对原创产品的“搭便车”，原创者付出努力却收益较少。
网络购物：后买者可以参考先买者的评价，先买者付出时间和精力，后买者获得信息收益

特别提示：

个体理性与集体理性是否冲突取决于制度安排。
解决冲突需修改游戏规则，满足个体理性基础上实现集体理性。
收入分配不均有助于减少个体与集体理性的冲突。

第五讲懦夫博弈和夫妻博弈

一、懦夫博弈

懦夫博弈，也称斗鸡博弈（Chicken Game）是描述竞争关系的博弈模型。

基本场景如下：
两名司机分别驾驶一辆汽车，朝着对方疾驰而来，道路狭窄，无法同时通过。每个司机都有两种选择：要么继续向前开，要么在最后一刻后退。如果两人都选择后退，那么他们都能安全通过，但会感到有点羞愧；如果一方转向而另一方继续向前，那么后退的人会被嘲笑为“懦夫”，而继续向前的人则会被称为“英雄”；如果两人都选择继续向前，那么他们将发生严重碰撞，两败俱伤。

其基本结构如下：

	进	退
进	-5,-5	10,0
退	0,10	0,0

特点：

纳什均衡：有两个纯策略纳什均衡，即（退，进）和（进，退）。
风险与收益：选择进可能获得高收益，但也面临高风险；选择退则收益较低，但风险较小。

模型拓展：

多次博弈：如果懦夫博弈进行多次，冒险选择向前而成功的参与人可能更有信心在未来采取这种策略。
信号传递：通过发出信号让对方相信自己不会退，可以迫使对方选择退。

eg:

路权之争：两车在狭窄道路上相向而行，互相不让道，最终可能通过一方转向来避免事故。
公共物品提供：在提供公共物品时，各方可能通过懦夫博弈来决定是否愿意承担成本。

启发：

奖励适度：过高的奖励可能导致过度竞争，适得其反。
先动优势：在竞争中抢占先机，可以获得更大的收益。

特别提示：

先下手为强，后下手遭殃。
竞争博弈中，领先一步、高人一筹至关重要。
均衡解中，进的概率和期望收益取决于具体参数。

二、夫妻博弈

夫妻博弈是描述合作博弈的经典模型。

基本场景如下：
夫妻二人计划晚上一起看电视节目。丈夫更喜欢看一场激烈的足球比赛，而妻子更倾向于观看一部浪漫的芭蕾舞剧。不过，无论看什么节目，他们都希望能一起观看。如果两个人各自看自己喜欢的节目，他们都会不开心。这种情况下，夫妻二人需要进行夫妻博弈，来决定最终观看哪个节目。

其基本结构如下：

	足球	芭蕾
足球	2,1	0,0
芭蕾	-1,-1	1,2

特点：

纯策略纳什均衡：有两个，即（足球，足球）和（芭蕾，芭蕾）。
混合策略纳什均衡：男以2/3概率选择足球，女以2/3概率选择芭蕾。
家庭地位与先动优势：家庭地位较高的一方可能具有先动优势，决定最终的均衡结果。
轮流选择与随机选择：轮流去对方喜欢的地方或随机选择，可以避免矛盾冲突。

启发：

合作与共赢：夫妻博弈是合作博弈，双方需要在共同利益的基础上，协商选择结果。
提前约定收益分配：提前约定合作收益的分配机制，可以降低合作成本，避免矛盾

特别提示：

合作需要沟通与协调，但沟通协调成本过高则合作难成。
人类社会制度和技术演进方向是降低沟通协调成本。
合作博弈核心问题在于合作剩余分配和合作风险分担。

三、猎鹿博弈

猎鹿博弈(Stag Hunt) 是描述合作博弈的经典模型，其基本结构如下：

	猎鹿	猎兔
猎鹿	4, 4	0, 2
猎兔	2, 0	2, 2

特别提示：

两个猎人合伙猎鹿一定是最优结果。但一方选择去猎鹿的前提是他能够预期到对方会选择猎鹿，而对方选择去猎鹿的前提也是预期到另一方会去猎鹿。也就是说，只有“双方都去猎鹿”成为一个共同知识的前提下，这个最优结果才会如期出现。
在没有沟通（独立决策）的情况下，每个猎人选择猎鹿的概率是50%。每个人选择猎鹿的期望收益也就是2只兔子。对于任何一方来说，出于风险规避的考虑（一般而言，人是厌恶风险的），还不如独自去猎兔。当双方都意识到这一点后，一起去猎鹿反而变得不可能了。
为了让双方都有一个更好的结果，出发之前提前沟通就变得非常重要了。如果双方提前约好一起去猎鹿，那么都选择猎鹿就是一个均衡结果。此时，没有人愿意偏离这个结果而选择去猎兔。
沟通是有成本的。在这个例子中，如果每人所承担的沟通成本小于2只兔子（总成本小于4只兔子），提前沟通能够提高双方总的收益水平，反之还不如分头去猎兔。

特别提示：

合作博弈的核心问题：

合作剩余（新增收益）怎么分配？
合作风险怎么分担？

合作需要沟通与协调，但沟通协调成本过高，合作很难成功。
人类社会制度和技术的演进方向：不断降低人与人之间的沟通（协调）成本。

四、鹰鸽博弈

鹰鸽博弈(Hawk-Dove Game) 是描述竞争关系的博弈模型，其基本结构如下：

	老鹰	鸽子
老鹰	A-C, A-C	2A, 0
鸽子	0, 2A	A, A

特别提示：

当A > C时，老鹰—老鹰是纳什均衡。
当A < C时，老鹰策略的概率α* = A/C。
损失更大的一方更愿意选老鹰。

推论：

恶霸博弈中，谁损失大，谁获益多。
你的决策成本由他人决定，你的决策由他人的成本决定。

第六讲最后通牒与讨价还价

一、最后通牒

最后通牒（Ultimatum Game）是分配固定金额的博弈，一方提出方案，另一方决定接受或拒绝。若拒绝，双方均一无所获。

eg:两个人分一笔总量固定的钱（如 100 元），一个人作为提议者提出分配方案，另一个人作为响应者进行表决。若响应者同意，则按提议者的方案分配；若不同意，则两个人都一无所有。

实验表明：

大多数人提出的分配方案在 40%-50% 之间。
少数人提出 50% 以上的分配方案。
当分配方案低于 20% 时，被拒绝的概率很高（40%-50%），随着分配金额的减少，拒绝的可能性逐渐增加。

独裁者博弈

独裁者博弈是最后通牒博弈的变体，提议者决定分配方案，响应者只能接受，无拒绝权。

特点：

提议者拥有绝对权力决定分配。
响应者无法影响分配结果。

实验观察：尽管提议者可独占所有资源，但许多提议者仍选择给予响应者一定份额，反映出人们内在的公平意识和利他倾向。

推论：

提议者的行为受道德和社会规范影响。
制度设计应考虑如何通过规则促进公平与合作。

特别提示：

越是成熟的组织，在管理中越倾向于运用最后通牒。
最后通牒可节省谈判成本并提供公平感。
出价高低受贪婪与恐惧影响。
权力基础影响分配结果，如随机分配或基于智力测试等。
谁承担决策的后果（出了问题谁负责？），谁负责决策

二、讨价还价

讨价还价（Bargaining）是参与者通过协商解决利益分配问题的过程。

eg:
选项 A：今天得到 100 元。（82% 的人选择）
选项 B：4 周后得到 110 元。（18% 的人选择）

谈判成本:谈判过程是有成本的，包括时间、精力的消耗等，这可能会影响双方是否愿意进行谈判以及谈判的最终结果。

贴现因子:是指一个份额经过一段时间后所等同的现在份额，它反映了参与者的“耐心”程度。贴现因子由多方面因素决定，如年龄、财富、未来收益的确定性以及知识水平等。

影响贴现因子的因素

年龄（寿命）：寿命越长，越看重长远利益。
财富：越富有，越关注长远利益。
未来收益的确定性（法治）：确定性高，则更看重长远利益。
知识水平（文化程度）：知识水平高，越看重长远利益。

特别提示：

讨价还价需考虑贴现因子，即 future gains 的当前价值。
贴现因子由参与者的耐心程度决定。
组织较个人有更长寿命预期，提高了贴现因子。
影响贴现因子的因素包括年龄、财富、未来收益确定性和知识水平。

第七讲混合策略与监督博弈

一、混合策略

混合策略指参与者在给定信息情况下，以某种概率分布随机选择不同行动。与之相对的是纯策略，即在每一信息情况下只选择一种特定行动。

特别提示：

混合策略的目的在于防人（减少被伤害）。
zju课程发现石头剪刀布的制胜策略：输家换用能胜对方的行动，赢家保持现状。

二、监督博弈

监督博弈涉及雇主和雇员间的监督与偷懒行为。其基本模型如下：

	偷懒	不偷懒
检查	-C, V-W-C	-C, V-W-C
不检查	W, W-H	W, V-W

特别提示：

混合策略均衡解中，雇主检查概率为 H/W，雇员偷懒概率为 C/W。
雇主支付工资 W 的期望收益最大值需通过求导确定。
H越大，雇主越容易检查。
C越大，雇员越容易偷懒。
W越大，雇员越少偷懒，雇主越少检查。

第八讲重复博弈和制度建设

一、重复博弈

重复博弈指同样结构的博弈重复多次，每次称为“阶段博弈”。其基本特征包括：

前一阶段博弈不改变后阶段结构。
所有参与人可观察过去历史。
总损益是各阶段损益的贴现值之和。

策略

重复博弈中可选择的策略。

雷锋策略：永远选择合作
曹操策略：永远选择背叛
冷酷策略（grim strategies），又叫触发策略：先选择合作，一旦被背叛就一直选择背叛（世上最冷酷的事：每个人都只有一条命）
心太软策略：偶尔一次背叛可以原谅，但连续两次背叛就会选择背叛
一报还一报（Tit-for tat）：第一次合作，接下来你怎么对我，下一次我就怎么对你
人鬼策略：合作的多是人，背叛的多为鬼
欺软怕硬（又叫检验者战略，Tester）：第一次背叛，看你是否好欺负，好欺负就背叛，不好欺负就合作
镇定者策略：先建立信任关系，然后想办法占小便宜
精神病患者（醉汉策略）：随机合作或者背叛

囚犯困境的重复博弈

在重复博弈中，参与者的策略可以基于以往的互动历史。例如，“一报还一报”策略：

第一次选择合作。
之后的每一轮都模仿对方在前一轮的选择。

这种策略的特点：

它是善良的，不主动背叛。
它是可激怒的，对背叛行为做出反应。
它是宽容的，允许对方改正错误。
它是清晰的，易于理解和预测。

特别提示：

在一次性博弈中，背叛是占优策略；但在重复博弈中，可选择如冷酷策略、一报还一报等策略。
“一报还一报”策略因其善良性、可激怒性、宽容性和清晰性，在重复博弈中表现优异。

二、制度建设

制度建设是博弈论的重要应用，旨在通过规则设计引导社会整体福利增加。

特别提示：

游戏规则决定游戏结局。
制度可修改完善，行为背后有原因，需从制度中寻找。
外因是条件，内因是根据，改变行为需提供足够激励（机制）。
制度好坏取决于是否鼓励通过说谎、偷懒获利，社会制度优劣评判标准在于此。

拍卖理论

Auction Theory

英国式拍卖(English Auction)：从低往高叫价，直到没有人加价为止。
荷兰式拍卖(Dutch Auction)：卖家叫价，从高往低，直到有人愿意交易为止。
最高价封标拍卖(First-price Sealed-bid Auction)：投暗标，和最高价成交。
第二高价封标拍卖(Vickrey Auction)：卖给最高价者，但以第二高价成交。

维克里拍卖(Vickrey Auction) 的优点：

信息披露真实。
信息披露迅速。
交易成本下降（时间成本、心理成本）。
买者满意度高。

制度的优劣评判

评判社会制度的优劣：

是否鼓励人们通过说谎来获利（隐藏信息）。
是否激励人们通过偷懒来获利（隐藏行动）。

秋月春风

明月守灯寻长梦，梦长寻灯守月明

明月守灯寻长梦，梦长寻灯守月明

秋月春风

总览

课程成绩

教学概况

第一讲 概述

一、何为“博弈”

二、发展简史

最初探索

诞生与发展

第二讲 术语解读和基本假设

一、术语解读

博弈论的基本术语

二、博弈分类

合作博弈与非合作博弈

静态博弈与动态博弈

基于信息状况的分类

零和博弈与非零和博弈

三、基本假设

理性假设

共同知识假设

第三讲 囚犯困境和破解之道

一、囚犯困境

占优策略

纳什均衡

二、如何破解囚徒困境

第四讲 万元陷阱和智猪博弈

一、万元陷阱

二、智猪博弈

第五讲 懦夫博弈和夫妻博弈

一、懦夫博弈

二、夫妻博弈

三、猎鹿博弈

四、鹰鸽博弈

第六讲 最后通牒与讨价还价

一、最后通牒

独裁者博弈

二、讨价还价

第七讲 混合策略与监督博弈

一、混合策略

二、监督博弈

第八讲 重复博弈和制度建设

一、重复博弈

策略

囚犯困境的重复博弈

二、制度建设

拍卖理论

制度的优劣评判

第一讲概述

第二讲术语解读和基本假设

第三讲囚犯困境和破解之道

第四讲万元陷阱和智猪博弈

第五讲懦夫博弈和夫妻博弈

第六讲最后通牒与讨价还价

第七讲混合策略与监督博弈

第八讲重复博弈和制度建设