文章收藏 / 学习资料 · 2023年04月23号 0

零和博弈

零和博弈(zero-sum game),又称零和游戏,与非零和博弈相对,是博弈论的一个概念,属非合作博弈。它是指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”,故双方不存在合作的可能。

主要特点

零和博弈的结果是一方获利而另一方损失,且一方的所得正是另一方的所失,整个社会的利益并不会因此而增加一分。也可以说:在零和博弈中,自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而双方都想尽一切办法以实现“损人利己”。

零和博弈又被称为游戏理论或零和博弈,源于博弈论(game theory)。早在2000多年前,这种零和博弈就广泛用于有赢家必有输家的竞争与对抗。“零和游戏规则”越来越受到重视,因为人类社会中有许多与“零和游戏”相类似的局面。与“零和”对应,“双赢”的基本理论就是既“利己”又不“损人”,能够通过谈判、合作达到皆大欢喜的结果。

博弈模型

零和博弈的原理如下:两人进行博弈,每次博弈后都会有一个人赢,一个人输。每次博弈后,我们计赢家得1分,而输家得-1分。假设A、B两人进行多次博弈,设A获胜次数为N次,并且失败次数为M次,由于是零和博弈,故B失败次数必然为N次,获胜的次数必然为M次。这样,经过M+N次博弈后,A的总分为(N-M),B的总分为(M-N),从而A和B的总分为(N-M)+(M-N)=0,这就是零和博弈的数学表达式。[1]

在某个零和博弈中,假设玩家A和B都有两个共同选择{选择1,选择2},规定若两个玩家都做出相同的选择,则玩家A得-1分,玩家B得1分;若两个玩家都做出不同的选择,则玩家A得1分,玩家B得-1分。收益矩阵如下: 博弈模型收益矩阵

选择1

选择2

选择1

-1,1

1,-1

选择2

1,-1

-1,1

理论背景

零和博弈源于博弈论,现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立,1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成。

零和博弈之所以广受关注,主要是因为人们发现社会的方方面面都能发现与“零和博弈”类似的局面,胜利者的光荣后往往隐藏着失败者的辛酸和苦涩。从个人到国家,从政治到经济,似乎无不验证了世界正是一个巨大的零和博弈场。这种理论认为,世界是一个封闭的系统,财富、资源、机遇都是有限的,个别人、个别地区和个别国家财富的增加必然意味着对其他人、其他地区和国家的掠夺,这是一个邪恶进化论式的弱肉强食的世界。我们大肆开发利用煤炭石油资源,留给后人的便越来越少;不断污染环境,带给后人的不良影响便越来越多。

通过有效合作皆大欢喜的结局是可能出现的。但从零和博弈走向双赢,要求各方面要有真诚合作的精神和勇气,在合作中不耍小聪明,不要总想占别人的小便宜,要遵守游戏规则,否则双赢的局面就不可能出现,最终吃亏的还是合作者自己。

从20世纪以来,人类在经历了两次世界大战、经济的高速增长、科技进步、全球一体化以及日益严重的环境污染之后,“零和博弈”观念正逐渐被“双赢”观念所取代。在竞争的社会中,人们开始认识到“利己”不一定要建立在“损人”的基础上。领导者要善于跳出“零和”的圈子,寻找能够实现“双赢”的机遇和突破口,防止负面影响抵消正面成绩。批评下属如何才能做到使其接受而不抵触,发展经济如何才能做到不损害环境,开展竞争如何使自己胜出而不让对方受到伤害,这些都是每一个为官者应该仔细思考的问题。有效合作,得到的是皆大欢喜的结局。从零和走向正和,要求各方要有真诚合作的精神和勇气,遵守游戏规则,否则“双赢”的局面就不会出现,最终吃亏的还是合作者自己。

主要意义

对于非合作、纯竞争型博弈,约翰·冯·诺依曼所解决的只有二人零和博弈:好比两个人下棋、或是打乒乓球,一个人赢一着则另一个人必输一着,净获利为零。

在这里抽象化后的博弈问题是,已知参与者集合(两方),策略集合(所有棋着),和盈利集合(赢子输子),能否且如何找到一个理论上的“解”或“平衡“,也就是对参与双方来说都最”合理“、最优的具体策略?怎样才是合理?应用传统决策论中的“最小最大”准则,即博弈的每一方都假设对方的所有策略的根本目的是使自己最大程度地失利,并据此最优化自己的对策,诺伊曼从数学上证明,通过一定的线性运算,对于每一个二人零和博弈,都能够找到一个“最小最大解”。通过一定的线性运算,竞争双方以概率分布的形式随机使用某套最优策略中的各个步骤,就可以最终达到彼此盈利最大且相当。当然,其隐含的意义在于,这套最优策略并不依赖于对手在博弈中的操作。用通俗的话说,这个著名的最小最大定理所体现的基本“理性”思想是“抱最好的希望,做最坏的打算”。

虽然零和博弈理论的解决具有重大的意义,但作为一个理论来说,它应用于实践的范围是有限的。零和博弈主要的局限性有二,一是在各种社会活动中,常常有多方参与而不是只有两方;二是参与各方相互作用的结果并不一定有人得利就有人失利,整个群体可能具有大于零或小于零的净获利。对于后者,历史上最经典的案例就是“囚徒困境”。在“囚徒困境”的问题中,参与者仍是两名(两个盗窃犯),但这不再是一个零和的博弈,因为其中一个人的损失并不等于另一个人的收益。(删除:两个小偷可能一共被判16年,或一共只被判2年。)

理论内涵及具体案例

在零和博弈中所有的参与者其获利与亏损的和正好等于零。赢家的利润来自于输家的亏损。以下有一些重要的观念是你在了解该交易是否为零和博弈所必须先知道的。这个分类决定于我们对玩家利润与亏损的定义有多宽广。它本身的分类对我们并不重要,但是对发起人就很重要了。要介绍这观念的发展,我们先讨论扑克游戏,然后我们再切入操作,因为扑克相对于操作是一种很好的比喻。

扑克

扑克是一种零和博弈

扑克在朋友之间、在扑克俱乐部、或是锦标赛都可以玩,我们来探讨这些游戏之间的异同。一般来说朋友之间玩扑克是一种典型的零和博弈。无论哪一个人赢,就会有其它的人输,这之间的输赢总和是零。

扑克俱乐部里面玩的就不太一样了,因为俱乐部对赌注总额会收取一个固定比率的费用,比方说是1%,则这将形成负和博弈。也就是输赢的总和小于零(如果加上俱乐部的抽成就为零了),玩家们集合亏损给俱乐部。如果我们定义俱乐部也是这个赌局特殊型态玩家的话,这个赌局又变成了零和博弈。换句话说,我们计算赢家所赢的和输家所输的扣除俱乐部抽成的总和,那又变成一个零和博弈了,扣除了付俱乐部的抽成之后,不管是谁赢,其它人就是输家。

锦标赛中的扑克赌局是由赞助商提供奖品,因此它是一个正和博弈(如果它的奖金超过所有参赛者的报名费的话),若我们计算总奖项的净值,那么扑克仍然是一个零和博弈。扣除了奖项之后,无论是谁赢,其它人都是输。

无论在什么场合玩扑克,这种赌局根本上的特性都存在,它就是一个零和博弈(假设这是一个基准),以这个观点看来,上述三种型态都是相同的,玩家们经常不关心它的基准为何,而持续玩相同的策略。

人们玩扑克要依靠这个基准的理由,撇开技术的差异性,那就是在锦标赛中大部分的玩家是赢家,而俱乐部中大部分的玩家是输家。

倘若除了考虑金钱,还考虑其他因素带来的收益,那么扑克可能是一种正和博弈

我们只凭金钱的贡献来定义扑克赌局中的赢家和输家。若要来解释为什么俱乐部中的玩家平均来说是输,这种定义过于狭隘。

仔细考虑人们玩扑克的四个理由,前两个理由包含外部的利益,第三个理由包含无益的及不理性的行为,第四点为预期利润。

第一可能也是最重要的一点,许多人玩扑克的原因是因为他们单纯地就是想玩(或是学着如何玩)。这些玩家愿意玩,即使一开始就预期会输,这个玩乐的外部利益可以解释为什么朋友之间纵使经常会输给技术较好的人,也会经常性地聚在一起玩。当玩家从扑克中取得此种衍伸乐趣时,扑克就是一种正和博弈。

第二,有些玩家玩扑克是因为他们可能尚未学会如何玩,或是仍无法成为一个技术较好的玩家来经由扑克赚钱。这些新手玩家们可能缺乏信息或是能力有限,但是绝不会不理性。如果他们了解到他们无法经由玩扑克赚钱,他们就会放弃。要学习是否能由扑克当中赚钱的代价相当昂贵,这些知识是藉由玩扑克可以获得的相当有价值的外部利益。新手玩家经常被称为笨蛋,而“笨蛋在每一分钟都会诞生”。然而,直到他们学习到并评价这个教训,这些人并不是笨蛋。

第三,有些玩家无法学习,或是无法接受他们无法藉由玩扑克来赚钱。这些玩家所追求的微小利润从来就没有实现过,他们经常是不理性的,而且可能有点情绪化。这些玩家是真正的笨蛋,因为他们拒绝去学习他们该学的东西,或是坚持花最高昂的代价去学习一些无用的方法。

最后,有些玩家玩扑克是因为他们是真正的行家,这些具有高超技术的玩家总是赢走其他玩家们的钱。他们所赢的可以超过所需的支出,这些支出包含给俱乐部的抽成,以及他们如果做别的工作可以得到的薪水,以及要维持专业与竞争力所产生的费用。这些玩家从那些愿意把钱输给他们的技术较差的玩家手中获利(也许是俱乐部)。这些人通称为“郎中”,因为他们捕食较弱的玩家。较弱的玩家通常避免与郎中同局,为了避免被认出来,这些郎中总是经常变换地方来捕食。如果郎中无法寻得猎物,或由于猎物们成功地避开他们,或由于猎物们一下子就放弃了,这些郎中也很难以生存。

交易

交易是一种零和博弈

像扑克一样,交易的分类可以分为零和博弈、负和博弈、或是正和博弈,完全取决于我们如何定义利润和亏损。

倘若我们只以获利和亏损来当作基准衡量交易,那么它必然是一个零和博弈。举例来说,假设操作利润和亏损被定义为与基本价值相对应(基本上它无法观察),那么当买方和卖方交易,他们会设定一个价格,如果这个价格高于基本价值,卖方就取得买方支出的利益。在市场上若没有其它交易员的亏损,不会有任何一个交易员获利的。既然我们无法确定地观察出基本价值,亦即交易员也无法确知他们的利润及亏损,则他们交易时间中的不确定性就不会改变零和博弈的本质。

如果所用的基准对买方和卖方是相同的,那么用来定义利润和亏损的基准并不影响零和博弈的本质。这个基准决定我们如何来解释利润和亏损。当我们用基本价值作为基准,我们解释价格和基本价值间的不同点为基本操作利润或亏损,不幸地,在没有定义以及估计基本价值之前,这些利润和亏损无法被估计。

就这个观点而言,操作利润和亏损的定义是以应用于买卖双方的一般基准为基础。一般常见的基本价值基准产生了零和博弈。一般报酬基准产生的博弈可以很容易地经由调整来成为零和博弈。不管如何,没有其它交易员的亏损,是不会有任何交易员有所获利的。基于这个论点,交易就是一个零和博弈。

在考虑其他因素的情况下,交易可能是一种正和博弈

理性的交易员不会去玩那种只能得到操作利润的纯零和博弈,如果所有的交易员都一样,所有的预期报酬率都是零,就不会有人从交易中获得利益。如果有些交易员技术较其它人好,这些技术较好的交易员愿意交易,但那些技术差的不愿意,那么就没有人交易了[2]

要解释为什么理性的交易员要交易,首先我们要先认清有些人交易不是只为了预期报酬。人们交易为了避险、为了将资金移转、为了交换财产、为了赚取绝对的报酬、为了学习他们是否可以藉由操作赚钱、或是得到赌博的乐趣。这些外部利益使得交易成为一种正和博弈。如果这些交易的外部利益够好,即使交易员自认会输,还是会去交易。技术好的交易员就可从这些技术较差,但是基于外部利益而进场交易的交易员手中来获利。

市场价格有效地整合信息,而技术较好的交易员根据他们获得的信息来交易以获取利润。如果操作利润超过获得信息的成本,这种行为具有获利性。如果没有人基于外部利益而进场交易,技术好的交易员就无法藉由交易来获利。他们将会放弃他们的研究,进而放弃交易,则价格的效率性将不复见。价格效率是依据技术好的交易员与那些愿意交易或是不理性的输家所创造的,技术好的交易员使得价格产生效率,而那些输家就对他们研究的努力而付费。

范例

有两个玩家进行博弈游戏,玩家一可以选择策略A或策略B,玩家二可以选择策略C、策略D和策略E中的一个。玩家的最终选择决定他们的收益大小,收益矩阵如下: 收益矩阵

C

D

E

A

20,-20

-10,10

30,-30

B

-20,20

20,-20

10,-10

例如,当玩家一选择策略A,玩家二选择策略D时,玩家一失去10分,玩家二得到10分。

无论玩家一选择策略A或者B,对玩家二而言,选择策略C总是比选择策略E的收益要高,所以玩家二永远都不会选择策略E。因此,我们可以视玩家二的策略集为{C,D}。

纳什均衡:设玩家一选择策略A的概率为p,玩家二选择策略C的概率为q。

设玩家一和玩家二的收益分别为u1和u2,则

u1=20pq-20(1-p)q-10p(1-q)+20(1-p)(1-q)

u2=-20pq+20(1-p)q+10p(1-q)-20(1-p)(1-q)

令∂u1/∂p=0和∂u2/∂q=0,计算可得p=4/7,q=3/7

因此,该博弈的混合策略纳什均衡:玩家一以4/7概率选择策略A,以3/7概率选择策略B;玩家二以3/7概率选择策略C,以4/7概率选择策略D,以0概率选择策略E。

有关应用

金融市场

零和博弈是博弈过程的最基本模型。理想的零和博弈对于金融市场有重要意义。

在金融市场实际趋势运行中,理想零和博弈的全过程接近于一个半圆。当然,所谓半圆,与观察者制定坐标的数值单位有关,如果大幅压缩时间单位,这个半圆看起来就像抛物线;如果大幅扩展时间单位,路线又象一段扁扁的圆弧。因此,在上面表达最高点的时候,提出“公认的相关系数”概念。在这个相关系数引导下,最高点就是一个明确的数值,也就排除了观察坐标绘制过程的伸缩带来的影响。

理想零和博弈,从金融趋势的演变角度来看,最终将构成核心因子。混沌经济学研究者一直希望在证券市场寻找到主宰世界命运的“混沌因子”,事实上,所有金融市场的“混沌因子”就是这么一个理想零和博弈的半圆。而最终,一个半圆的小泡影,也将幻化出五光十色的大千世界,其寿命成千上万年,或者更长。这个小泡影,带有“真善美”的天然属性。[3]

公司治理

公司治理中的零和博弈并非没有一个均衡点,可以从对手之间的博弈转变为正当管理与不正当管理之间的此消彼长,由此避免双方的对抗。正当管理与不正当管理的零和博弈中,正当管理的成份多一点,不正当管理的成份就少一点,反过来也是一样,两者之间存在着零和关系。管理者的精力是有限的,当他把精力过多的用在不正当管理的歪门邪道上时,就会严重影响到正当管理的艰苦卓绝的努力。因此,通过反对不正当管理来完成公司治理的任务,从而促进正当管理,对于把企业蛋糕做得更大,是不可或缺的。

首先,它可以避免所有者和其他相关利益者一方在零和博弈中处于必输的地位。在零和博弈中,管理者一方在信息不对称中处于优势地位,再加上其实际控制着人流、物流、资金流,因而在内部博弈中总是稳操胜券。作为对手的所有人和其他相关利益者一方,要想改变这种被动局面,通过公司治理加以抗衡总是必要的。其次,为反对不正当管理而付出一定成本是合算的。通过建立健全公司治理机制,反对不正当管理,难免要付出一定的成本,但它肯定是在可以承受的范围之内,与在零和博弈中必输的份额相比,与企业资产可能被掏空相比,付出这种成本还是合算的。再次,付出的必要成本使得企业“蛋糕做得更大”更有希望。反对不正当管理至少可以使管理者在内部“零和博弈”中获利的行为得到遏制,通过这种有效的工作使管理者在内部零和博弈中失去优势之后,就有望促使其将自己的聪明才智用在把“蛋糕做得更大”上,因为那样同样可以使他们个人所得的绝对数额更多。

从博弈论的研究来看,解决零和博弈问题的出路在于参与博弈者从零和走向双赢或者多赢,但是其前提必须摆脱零和博弈的思维定势。在企业管理中也是一样,两权分离的公司制发展轨迹不可逆转,而内部零和博弈又会产生内耗,解决的办法与其寄希望于大家在“零和博弈”中握手言和,不如让经营管理者感到实施不正当管理得不偿失,知难而退,一致对外,把企业利益的蛋糕做得更大。 [1]

博弈游戏

人与机器最大的不同就是,人有感情,所以人会犯错误。而这正是传统的博弈理论所忽视的。传统博弈理论用数学方法追求博弈格局中的最优策略,但前提是双方都不会犯错。所以,简单地把博弈理论运用到商战实践中,往往会出问题。但我们博弈的棋牌博弈就不一样,关键并非走出“最优的棋招”,而是走出“最有可能击败对手的棋招”。

参考资料

  • [1]  佚名. 博弈的哲学[M]. 中山大学出版社, 2014.
  • [2]  杜振鹏. 哈佛博弈课[M]. 企业管理出版社, 2014.
  • [3]  艾瑞卡·S.奥尔森. 零和博弈[M]. 中国财政经济出版社, 2014.