用期望进行决策的问题

chaos 2026-05-18 一 22:54

为什么期望值如此自然

许多场景用期望进行决策是合理的大数定律贝叶斯决策重复博弈

但在数学上出现的问题：

在不确定的世界里做决策，我们几乎本能地依赖一个概念：**期望值**。

想象一个简单的赌局：抛一枚均匀硬币，正面你赢 2 元，反面你输 1 元。你的期望收益是： \[ 0.5 \times 2 + 0.5 \times (-1) = 0.5 > 0 \] 大数定律告诉我们，长期重复下注，平均收益会无限接近 0.5 元。因此，任何理性的赌徒都应该参与——至少从数学期望的角度看。

从赌桌到保险，从股市到贝叶斯机器学习，期望最大化（\(\arg\max \mathbb{E}[U]\)）几乎成了理性决策的代名词。这个直觉如此强大、自然，以至于我们很少停下来质问：**它有没有边界？**

本文将通过一个经典的思想实验——**交换信封悖论**——展示期望值直觉是如何一步步走向崩溃的。更重要的是，我们将看到，崩溃的根源并非简单的计算错误，而是**概率模型与无穷结构**之间的深刻断裂。

期望值依赖概率模型

Two-envelope: 这里有无限均匀分布不存在的问题，即先验概率是 improper prior 概率模型不清晰（信封悖论，可数无限均匀分布不存在）

交换信封问题的标准版本是这样的：

> 有两个信封，里面装着钱。你知道其中一个信封里的钱是另一个的两倍，但不知道哪个是哪个。你随机选择一个信封，打开看到里面有 \(X\) 元。现在，你有一次机会换到另一个信封。换，还是不换？

直觉计算如下：另一个信封里要么有 \(2X\) 元，要么有 \(X/2\) 元，各 \(1/2\) 概率。因此，交换的期望收益为： \[ \frac{1}{2} \cdot 2X + \frac{1}{2} \cdot \frac{X}{2} = 1.25X > X \] 结论：“总是换更好”。

但一个对称性反驳立刻出现：如果打开信封前就应该换，那为什么我们不一开始就选另一个？这构成了一个静态矛盾。

为了让问题更实在，我们首先引入一个**有限上界**。假设信封对来自一个已知的有限集合 \( S = \{1, 2, 4, \dots, 2^N\} \)，每个金额等概率出现。这时，策略变得直观：

观察到一个小数字（例如 1），换几乎总是有利。
观察到非常大的数字（例如 \(2^N\)），另一个信封只能是 \(2^{N-1}\)，因此不换。

在这个有限、良态的世界里，“总该换”显然不成立。**局部对称并不蕴含全局对称**。这个认识已经比许多入门讨论深刻。

countable additivity

关键问题是：**如果给信封金额加一个有限上界，悖论就彻底消失了吗？**

答案是否定的。约翰·布鲁姆（John Broome）的构造将告诉我们，悖论可以在一个完全合法、可归一化、可列可加的概率模型中复活，而且是以一种更隐蔽、更深刻的方式。

Bertrand paradox(这个和期望似乎没什么关系，只是和均匀随机框架选择有关有关）

期望无限的问题

圣彼得堡悖论是一个经典的例子。

游戏规则很简单：不断抛一枚公平硬币，直到第一次出现正面为止。如果正面出现在第 \(n\) 次抛掷，你就获得 \(2^n\) 元。

那么这个游戏值多少钱？换句话说，你愿意付多少钱来获得一次参与的机会？

计算期望值：

\[ \text{期望} = \frac{1}{2} \cdot 2^1 + \frac{1}{4} \cdot 2^2 + \frac{1}{8} \cdot 2^3 + \cdots = 1 + 1 + 1 + \cdots = \infty \]

结果是无穷大。

于是，期望值最大化原则会告诉你：你应该愿意支付**任何有限金额**来参与这个游戏。哪怕是100万、1个亿，只要钱数有限，参与就是“理性”的。

但这显然是荒谬的。没有人真的会花100万去买一张圣彼得堡游戏的入场券。这个直觉是如此强烈，以至于我们不得不怀疑：期望值本身，在这个问题上可能根本不是正确的决策标准。

Dutch book(是什么 )

无限期望：概率论史上著名的圣彼得堡悖论” (St. Petersburg Paradox) 信封悖论升级版本

布鲁姆设计的生成机制如下：

> 反复掷一颗骰子，直到第一次出现 1 或 2 为止。设这发生在第 \(k\) 次掷骰。 > > 那么，两个信封的金额分别为 \((2^{k-1}, 2^k)\) 元。 > > 第 \(k\) 次的概率为： > \[ > P(k) = \left(\frac{2}{3}\right)^{k-1} \cdot \frac{1}{3} > \] > （因为前 \(k-1\) 次都不是 1 或 2，第 \(k\) 次是 1 或 2）。

这个概率分布是合法的：所有概率为正，且总和为： \[ \sum_{k=1}^\infty \left(\frac{2}{3}\right)^{k-1} \cdot \frac{1}{3} = 1 \]

现在，计算信封金额的期望： \[ \mathbb{E}[X] = \sum_{k=1}^\infty 2^k \cdot \left(\frac{2}{3}\right)^{k-1} \cdot \frac{1}{3} \] 提取公因子后，得到： \[ \mathbb{E}[X] = \frac{1}{2} \sum_{k=1}^\infty \left(\frac{4}{3}\right)^k = \infty \] 因为 \(\frac{4}{3} > 1\)，这个级数发散到无穷。

这就是全部差异所在。

现在重新审视“换信封”的决策：由于两个信封的期望都是无穷大，条件期望计算会得出“换更好”的结论，但这不再是一个逻辑矛盾。当期望无限时，**局部增加并不意味着全局不一致**。

> 不是所有“总该换”都是假的。 > > 当 \(\mathbb{E}[X] = \infty\) 时，它真的可能成立。

核心： E[X] requires a measure

条件概率还是干预概率

用什么概率计算期望：是条件概率还是干预概率 newcomb

Newcomb EDT vs CDT Pearl causal model

为什么现实中人不只最大化期望

utility risk aversion Kelly ergodicity coherent risk measure

是否应该选择期望的问题

引入额外的效用函数，增加了一个间接层，（什么是期望效用函数） \( E[U(X)] \neq U(E[X]) \) 凸性

核心：

maximize expected utility =maximize expected payoff ？

总结

期望不是一个孤立数字，而是：

(measure,conditioning,utility,time structure)

共同定义的对象。

radioLinkPopups

#概率

如对本文有任何疑问，欢迎通过 github issue 或进行反馈