汤姆·齐格弗里德《纳什均衡与博弈论》笔记（7）博弈论与概率论

第十一章帕斯卡的赌注——博弈、概率、信息与无知

在与费马就这个问题的通信过程中，帕斯卡创造出了概率论。另外，帕斯卡在进行严谨的宗教反思中，得出了概率这个概念，它在此几百年后，成为一个关键的、对博弈论的提出有重要意义的数学概念。

帕斯卡观察到，当下注开赌的时候，仅仅知道输赢的概率是多少是远远不够的，你还必须知道什么是风险。举个例子，如果赢的概率很小，但如果赢了，回报很高。那么这时，你就可能愿意去冒险。或者你会追求安全，即使回报很低，也把赌注压在确定会赢的牌上。然而如果知道回报不高，却将赌注押在一手不那么容易赢的牌上就显得很不明智了。

帕斯卡在其宗教著作中勾勒出了这个问题的框架，特别是关于是否存在上帝的赌博情况中。选择相信上帝就像下了个赌注，他说。如果你相信有上帝，而且这个信念最终被证明是错误的，你也不会失去什么。如果上帝的确存在，信仰上帝会使你赢得一生的无尚幸福感。纵使上帝的存在是一个低概率的神的存在，而相信他存在的回报确是那么的巨大（基本上是无限大的）。无论如何，他确实是一个很好的赌注。“让我们来衡量一下在上帝是否存在的博弈中的得失，”他写道，“让我们来判断一下这两种情况。如果你赢了，你会得到所有；如果你输了，你什么也没有失去。那么，毫不犹豫，他就是个赌博。”

帕斯卡的推理也许是在神学上过分简单化了，但是确实在数学方面很吸引人。关于一个经济决策进行“数学期望”的计算启示了这种推理方式——你用产出的概率乘以产出本身的价值。理性的选择一定是那个计算结果给出最高期望值的决策。帕斯卡的赌博经常被引用作最早的基于数学方法的决策论的例子。

批注：期望的分布。

在真实生活中，当然，人们不会总是简单地通过这种计算来做决定。并且当你的最佳决策依赖于他人是如何决策的时候，简单的决策论就不管用了——做出最佳决策便成为博弈论的一个问题（一些专家认为，决策论仅仅是博弈论的一个特例，因为在决策论中是一个参与者和自然在博弈）。而且，概率和预期收益仍然以深远且复杂的方式与博弈论有着千丝万缕的联系。由于这个缘故，所有的科学都和概率论有着深层次的缠结——整个观察、实验和测量过程，以及其后将这些数据和理论进行比较都是必需的。而且概率不仅发生在测量和假设检验中，也会发生在对物理现象的精确描述中，尤其是在统计物理学的范畴中。

在社会科学中，当然，概率论也是不可或缺的，就像阿道夫·凯特勒在大约两百年前说的一样。因此，我敢打赌，博弈论和概率的密切联系是博弈论之所以被广泛地应用在这么多不同科学领域的原因。并且，毫无疑问，正是博弈论的这个方面使其居于一个如此战略性的位置，作为一种原动力促使社会学与统计物理学融合形成社会物理学——有些像阿西莫夫的心理史学或自然法典。

到目前为止，策划运用社会物理学来描述社会的尝试绝大多数并不以博弈论为基础，而是以统计物理学为基础的（如阿西莫夫的小说的心理史学）。但是博弈论中混合策略/概率方程式表现出其与统计物理学中概率分布的惊人相似。事实上，为达到纳什均衡的博弈参与者所使用的混合策略正是概率分布，准确地说，正如统计物理学里定量表示气体中分子的分布情况。这个认识推出了一个非凡的结论——即，从某种意义上说，博弈论和统计物理学是互相的他我。意即，它们能够用相同的数学语言来表述。更确切地说，你不得不承认博弈论中某些模型与统计物理学中一些特殊公式在数学上是一致的，且其中还存在深层次的内在联系。只不过，几乎很少人意识到这一点。

统计学和博弈

博弈涉及的是参与者；物理学涉及的是分子。于是沃尔波特就研究能够体现参与者策略的数学方法，就像物理学中体现分子动态一样。所有参与者策略的混合体就像统计物理学中通常描述的所有原子动态的集合。他提出的公式，在给定对参与者的有限了解的情况下，可允许你计算出在博弈中任何个体参与者策略的真实集合的接近的近似值。你可以用同样的方法来计算出所有博弈参与者的混合策略。基本上，沃尔波特展示了统计物理学中的数学方法如何最终与有着有限理性参与者的博弈中所使用的数学方法是相同的。“那些论题根本上是同一的，”他在他的文章中写道，“这个证明增加了将一些统计物理学中已发展得很强大的数学技术转移到分析非合作博弈理论中的潜能。”

沃尔波特的数学图谋植根于“最大熵”理论（maximum entropy，或者叫“maxent”），一个联系标准统计物理学与信息理论的原理，用于量化发送与收到讯息的数学。最大熵的理论是由特立独行的物理学家艾德文·杰尼斯(Edwin Jaynes)在他于1957年发表的文章中创立的，此理论被很多物理学家所接受，但同时也被其他很多物理学家所忽视。当时，沃尔波特称杰尼斯的工作“多么光辉而美丽”，并且认为这才是科学家们必须为了“将博弈论带入21世纪”所需的东西。

杰尼斯原理吸引人的同时也使人产生挫败感。它看起来本质上简单，然而却隐含着错综复杂的关系。它与物理概念——熵有着紧密的联系，但仍有着细微的不同。无论如何，它的解释需要对概率论与信息理论的本质进行简要的探寻，也就是将博弈论与统计物理学结合到一起的本质联系。

概率和信息

几个世纪以来，科学家与数学家都在争论概率的含义。即便今天，仍然存在着不同学派的概率思想，通常简单表示为“客观派”与“主观派”。但是那些标签隐藏了次论据与技术上的细微的差别，使概率论成为一个数学与自然科学中最充满争议和困惑的领域。

多少有点令人吃惊，概率论的确是基于自然科学的基础，扮演着分析实验数据和理论检验过程中的核心角色。这就是科学所要做的一切。你会认为到如今他们已把问题全部解决。但是，建立科学的秩序有些类似为伊拉克建立一套宪法。研究科学的原理和方法纷繁复杂。事实上，科学（不像数学）不是建立在不可约规则的坚实基础上的。科学就像语法。语法是由使用该语言的本族人在创造词汇和联系词汇时发展出来的规律。一个真正的语法学家不会告诉人们他们应该怎么说，而是整理出人们实际上是如何说的。科学并不是烹调书，提供揭露自然奥秘的菜谱；科学源于方法的集合，成功诠释自然。这就是为什么科学不完全是实验，也不完全是理论，而是两者相互影响的复合体。不过，归根结底，理论和实验必须紧密结合在一起，如果科学家对于自然的构想是有意义且有用的。那么在大多数科学领域里你需要数学来验证它们的结合。概率论就是实施检验的工具（对于如何实施检验的不同想法会导致不同的概率概念）。

在麦克斯韦之前，科学中的概率论主要局限于定量计算诸如测量错误等情况。拉普拉斯和其他学者展示了一种方法来评估在一个确切的置信度下，你的测量值和真实值之间相差多远。拉普拉斯自己运用此方法测量了土星的质量，并推断出真实的土星质量会偏离当前的测量值超过1%的情况只有一万一千分之一(1/11000)的发生概率（而结果是，当今最好的测量方法与拉普拉斯时代最好的方法精确度只相差0.6%）。概率论已经发展成为一个进行评估的相当精确的方法。

然而，概率本身究竟意味着什么？如果你问那些应该懂的人，你会得到不同的答案。客观主义派坚持认为，一个事件发生的概率是该事件本身的性质。你观察所有情况中事件发生的片断，并籍此测量出它的客观概率。另一方面，主观派的观点认为，概率是一种对于某事件可能会怎么发生的信念。主观派主张测量某事件多久发生一次得到一个频率，而非概率。探究这两种论点相对优劣性的辩论并无意义。一些书籍却致力于这些争论，这与博弈论相当无关。事实是，今天流行的观点，至少是在物理学家中，是主观派方法包含了对科学数据进行合理评估的要素。

主观派统计学经常臣服在贝叶斯的名下。托马斯·贝叶斯是一名英国牧师，于1763年（在他去世后两年）发表的一篇文章中探讨了研究自然的方法。今天被人们熟知的贝叶斯定律的公式就是实践主观派统计学方法的核心之所在（尽管精确的定律实际上是拉普拉斯创立的）。无论如何，贝叶斯的观点在今天都被发扬光大，而且也有很多关于它应该如何被理解和应用的争论（也许是因为，毕竟它是主观的）。但是，从实践的观点来看，客观派和主观派概率论的数学方法在任何基础层面上并没有实质性的区别，只是在理解上有差异。正如杰尼斯在半个世纪前指出的，只是在一些情况下使用其中一种而非另一种是因为感觉方便，或更合适些。

信息和无知

在他1957年的文章中，杰尼斯在概率的辩论中支持了主观派的观点。他认为，这两种观点，主观派和客观派，物理学都需要，但是对于一些类型的问题只有主观派方法能解决。

他争辩道，即便当你对感兴趣的体系一无所知、无从下手的时候，主观派的方法仍然适用。如果给你一个装满了微粒的盒子，而你对它们毫不知情——不知道它们的质量，不知道它们的组成，也不知道它们的内部结构——你对它们的状态也不甚了解。你知道很多物理定律，但是你不知道对于这个体系该使用哪个定律。换言之，你对于这些微粒的状态的无知已经到达了顶点。创立概率论的早期开拓者，如雅格布·伯努利和拉普拉斯，认为，在这种情况下，你必须简单地假设所有的可能性出现的概率是相同的——直到你有理由去做不同的假设。那么，这也许有助于计算，但是假设所有可能性出现概率相同有确实的（理论）基础吗？除了些可以肯定的情况，很明显两种可能性发生概率相同（像硬币有两面一样完美的平衡），杰尼斯说，很多其他的假设可能被同样证明是合理的（或者如他惯称的，任何其他的假设都是同样主观的）。

批注：其实就是为这种想法提供理论基础吧。

然而，借助了在当时来说相当新的信息理论，杰尼斯发现了一种应对这种情形的方法，那个理论正是贝尔实验室的克劳德·夏农(Claude Shannon)创立的。夏农对如何量化通信很感兴趣，特别是发送信息；通过这种定量方式可以帮助工程师们找到使通信更有效率的办法（毕竟，他供职于一家电信公司）。他发现如果你将通信视作对不确定性的降低过程，那么数学方法就可以很精确地量化信息。在通信开始前，收到任何信息都是可能的，因此不确定性很高；当信息确实被接收后，不确定性就降低了。

夏农将这种数学方法广泛应用到任何一个信号传导系统中，从摩斯密码到烟雾信号。但是假设，例如你所想要做的就是发送给某人一条单字信息（这个字是从一本标准未删节的字典里选出的，大概字典里收录了50万字）。如果你告诉接收者这个信息中的单字来自该字典的前半部分，那么你就将这个字出现的可能性从50万字减少到了25万字。换言之，你将不确定性减半（这碰巧与一比特信息相符）。基于信息降低不确定性的想法，夏农通过它来展示如何量化所有的通信。他发现了一个精确衡量不确定性的量的公式——不确定性越大，量就越大。夏农称其为熵，一个有意与统计物理学及热力学里使用的物理专业术语熵类似的概念。

物理学家使用的熵是用来度量物理体系混乱度。假设你有一个房间，里面包括分隔开的两个隔间，而且你在左边的隔间里放了100亿个氧分子，而在右边隔间里放了400亿的氮分子。然后你移除隔间之间的分隔物。这些分子就会全部迅速混合到一起——更加无序——所以这个体系的熵就增加了。但是其他一些事也会随之发生——你不再知道这些分子在哪了。你对它们位置的无知随着熵的增大而增加。夏农展示出他计算通信中熵的公式——作为对无知或不确定性的量度——和统计物理学中描述微粒集合体中增加熵的公式完全如出一辙。熵，换言之，与无知几乎等同。熵也是不确定性的同义词。信息理论提供了一种在概率分布中计算不确定性的新的精确的方法。

因此，当你对于你要研究的体系中的概率一无所知的时候，这里有一条线索指引你该如何去做。选择一个使熵值最大的概率分布！最大熵意味着最大的无知，而且如果你什么都不知道，无知就被限定为最大。假设出最大熵/无知不仅仅是假设；它是对你所处情况的真实陈述。杰尼斯提出，这个最大无知的概念应该被提升到作为科学地描述任何事物的基本准则的层面。以他的观点，统计物理学本身便成为对于一个体系进行统计推论的系统。通过使用最大熵的方法，你仍可以使用所有统计物理学提供的计算规则，而无需在基本物理学方面假设任何前提。特别地，你现在能够证明这个观念，即所有的可能性出现的概率都是等同的。整体思想为，没有任何一种概率（只要是遵守物理定律的）会被排除。你所获得的信息中没有被明确排除的任何情况都将被视为存在发生的可能（在标准的统计物理学中，这种特征是无需证据而简单地被假设出的——整体的概率分布基于所有的分子均遵循各自的可能运动状态的概念）。而且，如果你一无所知，你不能说任何一个概率相较于另一个概率更可能出现——这是常识。当然，如果你了解一些关于概率的知识，你可以将其融入你使用的概率分布去预测将来的未知。但是如果你对此一无所知，那供你用来预测将来的未知的就只剩一种概率分布了：这就是最大熵、最大不确定性、最大无知。毕竟，这种做法还是有意义的，因为一无所知，事实上，即最大无知。

听起来有些神奇，即使对面前的物体或人一无所知，你仍然可能做出预测。当然，你的预测可能不一定正确。但是，那仍然是当你不知从何做起时，你所能做的最好预测，你所能找寻的最近似的答案。“概率分布将受制于某些限制的熵最大化，这成为解释分布推理使用的关键，”杰尼斯写道，“无论结果是否符合实验，它们仍然代表基于可用信息所能做的最佳预估。”

但是“熵的最大化”确切的含义是什么呢？简单的解释是，选择那些源于一切符合自然法则的可能性集合中的概率分布（既然你一无所知，你也就不能丢下任何可能的情况）。这里有一个简单的例子。

假设你想预测一个有100名学生的班级所有人的平均成绩。你所知道的只有一般规则（即，自然法则）——每人都会得到一个成绩，且成绩被定为A、B、C、D或F（不允许任何未评）。你对学生的水平和努力程度一无所知。那么你对班里孩子们平均成绩的最好预测是什么呢？换言之，你如何找到一个成绩的概率分布来告诉你哪个平均成绩最有可能是真实的？运用最大熵或最大无知原理，你简单假设成绩能分布的所有可能情况——所有可能组合出现的概率均等。例如，一种可能的分布是100个A而没有别的情况出现。另一种可能是全部的F。也可能是每种成绩都分别由20人获得。也可能是50个C、20个B、20个D、5个A和5个F。所有的组合情况全部加和到一起成为一个概率的集合，该集合由符合最大无知原理——对于班级以及学生和学生成绩的完全无知的所有概率分布组成。

在统计物理学里，这种情况被称之为“典范系综”——系统中分子的所有可能状态的集合。每一种组合都是一个微观状态。许多不同可能的微观状态（成绩的分布）与相同的平均值（宏观状态）一致。不要试图列出所有可能的组合，那会消耗你大量的时间（你所涉及的数字可能大得接近10的70次方级别）。但是你能计算出，或者甚至可以凭直觉看出，最有可能的平均成绩就是C。在所有可能的微观状态组合中，出现平均成绩为C的概率比任何其他成绩的概率都要大很多。例如，只有一种情况下能得到完美的平均成绩为A——所有的100个学生都得到A。但是你得到平均成绩是C的情况却有很多——100个C、50个A和50个F，5个级别的成绩各有20人得到，等等。

就像扔硬币，一次扔4枚硬币，头像朝上的硬币数量相对于上例中的成绩（0就是F，4就是A）。在100次试验中，许多组合的平均值为2，而只有很少的情况平均值为0或4。因此，基于一无所知，你的预测为平均成绩是C。

博弈论与概率分布

过去科学家们没有真正将博弈参与者们当作统计物理学中的微粒来考虑，至少没有从正确的角度去考虑。如果你真的考虑过这一点，你就会意识到没有一个物理学家在计算气体热力学性质时考虑单个分子的状态。这个观点是为了计算出整个分子集合体的全面特征。你不可能知道单个分子在干什么，但是你能够统计计算出结合在一起的所有分子的宏观表现。博弈和气体之间的联系应该很清楚了。统计物理学研究气体，并不知道单个分子的活动，而博弈论学家同样不知道单个参与者是如何思考的。但是物理学家确实知道分子集合体的表现可能是怎样的——统计学意义上的——并且能针对气体的性质给出较好的预测。类似地，博弈论学家应该能对博弈中将会发生的事件作出统计学预测。

正如沃尔波特反复强调的，这就是科学通常的处理方式。科学家们对他们研究的体系相关的信息进行限制，并试着基于他们手上已有的信息做出可能的最优预测。就像一场博弈中的一个参与者仅仅对这个博弈中可能出现的策略组合持有不完整信息，那么科学家们就研究在拥有不完整信息情况下的博弈，信息包括参与者们都知道些什么以及他们是如何思考的（切记，不同的个人在博弈时使用的思路是不同的）。

所有的科学都面对这种问题——对于一个体系知道一些情况，然后就根据这有限的知识，试图去预测将会发生什么，沃尔波特指出。“那么科学将如何着手来回答这些问题呢？在你所致力研究的每个独立的科学领域中，这种尝试的结果将是一个概率分布。”

从这一点看，概率论就引进了另一种混合策略。不仅仅是参与者持有混合策略，备选的可行概率分布也会变化。科学家描述博弈持有一种“混合策略”，那就是对于博弈结果的可行预测。“当你想到这个的时候，觉得显而易见，”沃尔波特说，“如果给你一场真人参加的博弈，不，你就不会总是得到同一种结果。你会得到不止一种可能出现的结果……他们不可能总是以完全一样的那套混合策略去结束博弈。对于他们使用的混合策略会出现一个分布现象，就像在其他科学问题中一样”。

……