用期望进行决策的问题

chaos 2026-05-18 一 22:54

为什么期望值如此自然

许多场景用期望进行决策是合理的 大数定律 贝叶斯决策 重复博弈

但在数学上出现的问题:

在不确定的世界里做决策,我们几乎本能地依赖一个概念:**期望值**。

想象一个简单的赌局:抛一枚均匀硬币,正面你赢 2 元,反面你输 1 元。你的期望收益是: \[ 0.5 \times 2 + 0.5 \times (-1) = 0.5 > 0 \] 大数定律告诉我们,长期重复下注,平均收益会无限接近 0.5 元。因此,任何理性的赌徒都应该参与——至少从数学期望的角度看。

从赌桌到保险,从股市到贝叶斯机器学习,期望最大化(\(\arg\max \mathbb{E}[U]\))几乎成了理性决策的代名词。这个直觉如此强大、自然,以至于我们很少停下来质问:**它有没有边界?**

本文将通过一个经典的思想实验——**交换信封悖论**——展示期望值直觉是如何一步步走向崩溃的。更重要的是,我们将看到,崩溃的根源并非简单的计算错误,而是**概率模型与无穷结构**之间的深刻断裂。

期望值依赖概率模型

Two-envelope: 这里有无限均匀分布不存在的问题,即先验概率是 improper prior 概率模型不清晰(信封悖论,可数无限均匀分布不存在)

交换信封问题的标准版本是这样的:

> 有两个信封,里面装着钱。你知道其中一个信封里的钱是另一个的两倍,但不知道哪个是哪个。你随机选择一个信封,打开看到里面有 \(X\) 元。现在,你有一次机会换到另一个信封。换,还是不换?

直觉计算如下:另一个信封里要么有 \(2X\) 元,要么有 \(X/2\) 元,各 \(1/2\) 概率。因此,交换的期望收益为: \[ \frac{1}{2} \cdot 2X + \frac{1}{2} \cdot \frac{X}{2} = 1.25X > X \] 结论:“总是换更好”。

但一个对称性反驳立刻出现:如果打开信封前就应该换,那为什么我们不一开始就选另一个?这构成了一个静态矛盾。

为了让问题更实在,我们首先引入一个**有限上界**。假设信封对来自一个已知的有限集合 \( S = \{1, 2, 4, \dots, 2^N\} \),每个金额等概率出现。这时,策略变得直观:

  • 观察到一个小数字(例如 1),换几乎总是有利。
  • 观察到非常大的数字(例如 \(2^N\)),另一个信封只能是 \(2^{N-1}\),因此不换。

在这个有限、良态的世界里,“总该换”显然不成立。**局部对称并不蕴含全局对称**。这个认识已经比许多入门讨论深刻。

countable additivity

关键问题是:**如果给信封金额加一个有限上界,悖论就彻底消失了吗?**

答案是否定的。约翰·布鲁姆(John Broome)的构造将告诉我们,悖论可以在一个完全合法、可归一化、可列可加的概率模型中复活,而且是以一种更隐蔽、更深刻的方式。

Bertrand paradox(这个和期望似乎没什么关系,只是和均匀随机框架选择有关有关)

期望无限的问题

圣彼得堡悖论是一个经典的例子。

游戏规则很简单:不断抛一枚公平硬币,直到第一次出现正面为止。如果正面出现在第 \(n\) 次抛掷,你就获得 \(2^n\) 元。

那么这个游戏值多少钱?换句话说,你愿意付多少钱来获得一次参与的机会?

计算期望值:

\[ \text{期望} = \frac{1}{2} \cdot 2^1 + \frac{1}{4} \cdot 2^2 + \frac{1}{8} \cdot 2^3 + \cdots = 1 + 1 + 1 + \cdots = \infty \]

结果是无穷大。

于是,期望值最大化原则会告诉你:你应该愿意支付**任何有限金额**来参与这个游戏。哪怕是100万、1个亿,只要钱数有限,参与就是“理性”的。

但这显然是荒谬的。没有人真的会花100万去买一张圣彼得堡游戏的入场券。这个直觉是如此强烈,以至于我们不得不怀疑:期望值本身,在这个问题上可能根本不是正确的决策标准。

Dutch book(是什么 )

  • 无限期望:概率论史上著名的圣彼得堡悖论” (St. Petersburg Paradox) 信封悖论升级版本

布鲁姆设计的生成机制如下:

> 反复掷一颗骰子,直到第一次出现 1 或 2 为止。设这发生在第 \(k\) 次掷骰。 > > 那么,两个信封的金额分别为 \((2^{k-1}, 2^k)\) 元。 > > 第 \(k\) 次的概率为: > \[ > P(k) = \left(\frac{2}{3}\right)^{k-1} \cdot \frac{1}{3} > \] > (因为前 \(k-1\) 次都不是 1 或 2,第 \(k\) 次是 1 或 2)。

这个概率分布是合法的:所有概率为正,且总和为: \[ \sum_{k=1}^\infty \left(\frac{2}{3}\right)^{k-1} \cdot \frac{1}{3} = 1 \]

现在,计算信封金额的期望: \[ \mathbb{E}[X] = \sum_{k=1}^\infty 2^k \cdot \left(\frac{2}{3}\right)^{k-1} \cdot \frac{1}{3} \] 提取公因子后,得到: \[ \mathbb{E}[X] = \frac{1}{2} \sum_{k=1}^\infty \left(\frac{4}{3}\right)^k = \infty \] 因为 \(\frac{4}{3} > 1\),这个级数发散到无穷。

这就是全部差异所在。

现在重新审视“换信封”的决策:由于两个信封的期望都是无穷大,条件期望计算会得出“换更好”的结论,但这不再是一个逻辑矛盾。当期望无限时,**局部增加并不意味着全局不一致**。

> 不是所有“总该换”都是假的。 > > 当 \(\mathbb{E}[X] = \infty\) 时,它真的可能成立。

核心: E[X] requires a measure

条件概率还是干预概率

  • 用什么概率计算期望:是条件概率还是干预概率 newcomb

Newcomb EDT vs CDT Pearl causal model

为什么现实中人不只最大化期望

utility risk aversion Kelly ergodicity coherent risk measure

是否应该选择期望的问题

  • 引入额外的效用函数,增加了一个间接层,(什么是期望效用函数) \( E[U(X)] \neq U(E[X]) \) 凸性

核心:

maximize expected utility =maximize expected payoff ?

总结

期望不是一个孤立数字,而是:

(measure,conditioning,utility,time structure)

共同定义的对象。

radioLinkPopups

如对本文有任何疑问,欢迎通过 github issue 邮件 metaescape at foxmail dot com 进行反馈