P(X|Y) 简介

条件概率的假设和结构

2026-05-17 日 11:45 2026-05-17 日 11:48

最直观的起点

你手里有一颗均匀的骰子,随手一扔,你觉得“掷出 1 点”的可能性是 1/6, 这来自骰子本身的空间属性,材质上的均匀性。

但有人告诉你一个额外的信息:“掷出的点数是奇数”。由于在奇数范围内,只有三个等可能的结果 1、3、5,其中“1 点”占了一个,所以概率变成了 1/3。

这是理解条件概率最原始也是最稳固的例子:当我们已知某个事件(比如“点数为奇数”)已经发生,原来那个事件(“点数为 1”)的可能性就被限制在新的范围内,需要重新衡量。

它基本不依赖于任何更基础的公式推导,似乎是日常生活中使用的“根据已知信息调整判断”的本能。

代数推广

如果将它代数化,把“掷出 1 点”记作事件 A,“掷出奇数”记作事件 B。在没有额外信息时,P(A) = 1/6。一旦知道 B 发生了,原来的样本空间就被限制到了 B 内部(即 \(\{1,3,5\}\)),而 A 只有在同时属于 B 时才有可能发生,也就是 \(A \cap B\)(这里 \(A \cap B = A \))。在 B 内部,A 的概率自然等于 \(A \cap B\) 占 B 的比例:

\[ P(A|B) = \frac{|A \cap B|}{|B|} = \frac{1}{3}. \]

更一般地,对于任意事件 \(A\) 和 \(B\)(\(P(B) > 0\)),这个直觉就抽象为: \[ P(A|B) = \frac{P(A \cap B)}{P(B)}. \] 分子是“A 与 B 同时发生的概率”,或者说是 A 和 B 相交的样本空间占据总空间的比例。

分母是“B 发生的概率”(或者 B 占据总空间比例),两者之比反映了“在 B 发生的那些结果中,A 所占的权重”。

这是纯粹基于符号的定义,其中 A,B 符号可以代表任何概率事件,是一种很强的归纳。

额外的,我们获得了 \( P(A\cap B) = P(A|B) P(B) \) 的概率分解公式

函数封装:随机变量

在接受 \( P(A|B) = \frac{P(A \cap B)}{P(B)} \) 是对一切概率事件的应用推广后,那么可以对事件进行一次打包,引入随机变量。

掷骰子中,定义 X 为 “掷出的点数”,那么 X 可以取 1,2,3,4,5,6, 而等式 X=1 变成了事件 "掷出的点数为 1" 的数学对应物。

从逻辑上看 "X=" 结构是一种谓词函数,即 “掷出的点数为__”,下划线里只能填自然数,填入之后得到一个命题,它有真有假,对于假的命题,概率为 0, 否则需要一个还需要规定各个结果出现的概率,在骰子中,概率是离散均匀分配的。

又比如,定义 Y = 1 是点数为奇数,Y = 0 是点数为偶数。原来用事件描述的“点数为奇数”以及“点数为 1”就可以用一组随机变量的取值来表示:Y=1 且 X=1 。

已知结果为奇数下点数为 1 的概率是 1/3 可以用纯数学符号 P( X=1 | Y=1 ) = 1/3 来表示。

事件之间的条件概率原本是数的关系,但在随机变量上,变成了概率(质量)函数之间的关系:

\[ p_{X|Y}(x|y) = \frac{p_{X,Y}(x,y)}{p_Y(y)}. \]

联合概率分解公式相应地写为

\[ p_{X,Y}(x, y) = p_Y(y) \, p_{X|Y}(x \mid y). \]

等式左侧是一个二元函数,右侧是一个一元函数与一个二元函数的乘积,这是合理的数学表达。

考虑 \(h(x)=f(x)g(x)\) 的场景,它可以看作两个函数通过乘法复合:给定任意 \(x_i\),会得到一个特定的 \(h(x_i)=f(x_i)g(x_i)\)。

类似地,\(p(x,y)=p(y)p(x|y)\) 也是一种乘法下的函数复合,其结构是 \(f(x,y)=g(y)h(x,y)\)。给定任何 \(x_i, y_i\),也能得到单个事件下条件概率的合理解释:\(p(x_i,y_i)=p(y_i)\,p(x_i\mid y_i)\)。

数学上,这种组合可以扩展到更多变量的情况,比如 \(f(x,y,z)=g(x,z)h(y,z)\) 也是成立的。

那么,概率在这基础上增加了什么?

在 \(p(x,y)=p(y)p(x|y)\) 所对应的 \(f(x,y)=g(y)h(x,y)\) 结构中,概率额外增加了对 \(g(y)\) 的非负与归一化约束;而对 \(h(x,y)\) 的约束则更特别一些:固定 \(y\) 后,\(h(x,y)\) 作为 \(x\) 的函数也要满足非负与归一化。

在这种规范下,\(f(x,y)\) 会自动满足在 x,y 上的归一化约束,这是数学上保证的。

连续的推广:概率密度函数

还可以把离散的概率连续化,把概率质量函数变成概率密度函数。

对于连续型随机变量 X 和 Y,用 \( f_X(x) \) 表示 X 的密度, \( f_{X,Y}(x,y) \) 表示联合密度,那么条件概率密度就定义为

\[ f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \]

从数学上看, \( f_Y(y) \) 不是概率而是概率密度,因为连续随机变量每个取值概率为 0 ,以上等式分母始终为 0 ,就是未定义的了。

所以,条件概率的解释:“新的信息会改变我们对结果的权重分配,从而导致概率发生更新” 似乎对连续概率失效?

其实并不是。考虑 y 的一个很小的邻域,比如 \(y \in [y_0, y_0+\Delta y]\),Y 的概率大约是 \(f_Y(y_0)\Delta y\),

同时考虑 x 在某个小邻域 \([x_0, x_0+\Delta x]\) ,联合概率近似为 \( f_{X,Y}(x,y) \Delta x \Delta y \),条件概念就是 \( \frac{f_{X,Y}(x,y) \Delta x}{f_Y(y_0)} \), 如果有以上条件概率密度的定义,就等于 \(f_{X|Y}(x_0|y_0)\Delta x\) ,它表示 Y 在 y0 周边,X0 附近的条件概率,这在语义上和离散情况是吻合的,因此这种定义是合理的。

因此,条件概率的直觉——信息更新导致可能性重新分配——在连续情形下依然成立。

注意, \( f_Y(y) \) 数学上是累积分布函数 \( F_Y(y) \) 的导数,但 \( f_{X,Y}(x,y) \) 不是 \( F_{X,Y}(x,y) \) 的导数,而是它的混合偏导数: \[ f_{X,Y}(x,y) = \frac{\partial^2}{\partial x \partial y} F_{X,Y}(x,y). \]

而 \( f_{X|Y}(x|y) \) 则是在 y 固定的情况下,是 \( F_{X|Y}(x|y) \) 的导数,每个 y 都对应了不同函数。

作为模型的 P(X|Y)

回到抛硬币的例子,我们用随机变量 X 表示抛出的点数,接着 P(X=1)=1/6

这个过程中,我们完全抛弃了对硬币抛掷过程中物理过程的追踪,放弃了所有确定性的机制解释,直接从呈现的结果的某种可能性模式来思考。

这种放弃物理细节带来的好处是,我们谈论的对象完全是 "信息化的",而几乎一切都可以“信息化”,意味着它可以和完全非物理的东西放在一起讨论,股票,句子真假,蛋白质的结构全都可以用一套语言来描述。

更具体的,如果 Y 表示结果的奇偶性,Y=0 表示点数为偶数,Y=1 为奇数。 那么 P(X=1|Y=0)=0 表示的是,得知结果的部分信息之后点数为 1 的概率。

这里一个原本关于客观的物理过程的问题变成了关于信念的认知判断问题。

P(X|Y) 纯粹是描述信息相关性的表达式,Y 所代表的奇偶性和 X 代表的点数并没有物理机制上的因果关系,而是逻辑关系。

再比如最简单的单比特信息发送问题,发送端发出 0 或 1 的信号,经过电线(称为信道)传到接收端,由于线路中噪声机制的复杂性,我们直接忽略物理细节,转而用一个条件概率分布 \(P(Y|X)\) 来描述信道的行为:给定发送的是 x,接收端得到 y 的概率是多少。该分布是通过结果数据统计近似出来的。比如发送 0 时有 20% 概率接受为 1 。

一旦接受这种模型,当接受到某个信号 y 之后,可以根据贝叶斯公式反过来推断发送的 X 的可能性,也就是 \(P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \) 。

而为了知道 \( P(X|Y) \) ,我们需要知道 P(X) 和 P(Y) 。

如果只需要知道 X=0 的概率更大还是 X=1 的概率更大,那么只需要知道 P(X) 。

X 是发送端发送 0/1 的统计分布,Y 是接收端收到 0/1 的统计分布。

要知道的是,我们最初只是因为信道的复杂性和随机性而对信道进行概率化,这个理由听上去是合理的,因为在传输时管道本身就不是静态和确定的,其中电磁场、电流始终在和环境交互,因此有随机性。

Y 是经过信道随机化后的数据,它有随机性,于是统计 Y 的分布确实有“物理机制”解释上的合理性。

但 X 是发送人发送的信息,它可能来自发送者大脑的决策,也可能是传递环境里的某些事实(比如天气),发送者清楚地知道“我现在发送的是 1”,它看上去是确定的。

即便说发送端数据是随机的,这种随机性也与信道里的随机无关,它是来自更大的环境背景中的随机。

然而一旦转换过程被概率化之后,那些看上去静态的、确定性的数据本身也得概率化。

为什么?

这又要回到 P(Y|X) 是什么的问题了,它并非对纯粹管道机制的物理建模,而本身就是纳入了输入端数据中来自人脑,环境的随机性,如果 X 只能取 0, 那么 P(Y|1) 是统计不出来的,但它不表示管道无法把 1 转成其他对象。

这再次凸显出,一旦选择概率来建立模型,那么一切丰富的“材质”性的东西都被抹去了,只留下一个统一的关于“信息”的世界。 P(Y|X) 不仅编码机制,还编码了整个信息世界状态的其他背景信息。

机制的重新加入: Y=aX+W 的例子

但 P(Y|X) 真的完全只能是黑盒吗?

并非如此,如果我们对背后的机制比较了解,能够从数学上区分随机和确定的部分,同时这个数学表达式还相对简单,那么就可以加入更丰,一个典型的例子是 Y=aX+W

这里 Y 是 X 和 W 两个随机变量的相加结果,W 是噪声的随机变量。

aX 是什么?它仅仅是一个缩放后的随机变量,比如如果 X 是掷骰子的结果,1 到 6 的概率都是 1/6, aX 则是 a,2a,3a,…6a ,对应概率是 1/6 。

aX+W 是什么?如果 X 和 W 独立,那么一般需要用卷积的方式去计算符合随机变量的分布。

但该模型对应的现实场景往往不是要计算 Y 的分布,更常见的场景是 X 是输入为 -1 和 1 的信号,a 是一个放大系数(比如是 2),W 是已经测量出来的高斯噪音,类似前文中用统计方式测量出的 P(Y|X)

此时关注的问题是诸如:收到信号 Y=1.5 之后,最有可能的 X 是什么?

这还是一个 Bayes 问题 \(P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)} \) ,和前文一样,如果要知道给定 Y 之后最有可能的 X 是什么, 只需要对比不同 X 输入下 \( P(Y|X)P(X) \) 的值,如果输入 x=1 和 x=-1 的概率一样,那么只需要比较 P(Y=1.5|X=1) 和 P(Y=1.5|X=-1) 谁更大。

那么这里 P(Y|X) 是多少,更具体的, P(Y=1.5|X=1) 是多少?

Y=aX+W 作为一个数学表达式,在 X,a,Y 都已知的情况下,自然写出 \( W=Y-aX = 1.5-a \) 的形式,但这表示什么?

由于 W 是高斯分布,假设是标准高斯分布,那么 W=1.5-a 就是一个事件,我们能计算 P(W=1.5-a) 这个概率值,即标准高斯分布下取值为 1.5-a 的概率。

这个概率是什么?

由于 X 和 Y 都给定了,它可以是 P(X=1,Y=1.5) 的联合概率,也可以是 P(X=1|Y=1.5),还可以是 P(Y=1.5|X=1)

从数学表达式上是无法判断的,我们需要回到前提假设,这些数学之外的东西上。

我们所规定的机制是:当输入值 X=x 确定之后,通信管道会给它叠加一个高斯噪音,然后得到一个具体的输出值 Y=y, 因此每次发送相同的 X=x, 预期会得到不同的 Y=y, 所有不同的 y 都是在一个 x 前提下从高斯分布里采样再叠加的,因此是 Y 从数据生成机制上依赖于 X 。

注意先后顺序,当 X=x 确定之后,随机性才出现,此时 W 的随机只会影响 Y, 因此这是典型的 P(Y|X) 形式,即当 x 给定之后就进入一个单独的概率子空间,其中所有事件的概率之和为 1, 因此 P(W=1.5-a) 应被解释为 P(Y=1.5|X=1) 。

注意一般我们会假设 X 和 W 是独立的,同时 Y 依赖于 X 和 W ,这样就可以把 P(W=1.5-a) 解释成 P(Y=1.5|X=1) 。

但独立性不是必要的,比如 W 可以和 X 不独立,当 X=1 的时候 W 是一个以 0 为均值的高斯分布 W(0), X=-1 时是一个以 0.5 为中心的高斯分布 W(0.5) ,此时 P(W=1.5-a) 也可以解释成 P(Y=1.5|X=1) ,只不过 P(W=1.5-a) 的分布是以 W(0.5) 为准的。

所以解释成 P(Y|X) 的核心是在数据产生的顺序上可以写成 Y>W>X (这里 > 意味着时间上的大于关系,它不是物理层的因果,只是“信息世界里”数据产生的先后), 如果 X 和 W 是独立的,那么其采样的先后顺序是不重要的,因此可以写成 W>X, 之后 Y 是在 W 之后出现。

如果 X>W>Y ,那么意味着 Y 确定之后随机性才出现,并且最后决定了 X, 那么 Y=aX+W 可以写成 \( X=\frac{1}{a}(Y-W) \), P(W=1.5-a) 应被解释为 P(X=1|Y=1.5) 。

如果能写成 W>X>Y 或者 W>Y>X, 那么 Y=aX+W 就等价于 W=aX-Y, 此时 P(W=1.5-a) 解释为 P(X=1, Y=1.5) 当然此时的模型解释就不是信息传输了,如果 W 还得是标准高斯分布,那么它把 aX-Y 这条线上所有值赋予同一个概率,这是个纯概率约束的人造场景。

总之,当我们写下 Y=aX+W 时,相当于对 P(Y|X) 的结构加入了额外假设。相比于完全把 P(Y|X) 当作统计黑箱,这种模型假设输出由“确定性部分 + 随机扰动”组成,因此具有更强的结构性和解释性。

但这里涉及如何将随机性解耦的问题,如果这种分解与真实过程偏差很大,那么该模型反而可能限制表达能力。在这种情况下,结构更弱、更由数据驱动的 P(Y|X) 参数化方式可能更合适。

此外,这种解耦还要保证数学上的方便计算,如果写成 \( Y=e^{X+W}+W \), 即便知道 X 和 Y 也无法把 W 以封闭解形式写出来,因此无法用简单的方式去计算出 P(Y|X) 概率。当然 aX+W 中 W 为什么是高斯分布并且是简单叠加上去更像是来自于人类的经验总结,一种经验学习和权衡的结果,更彻底的方式是把 P(Y|X) 里的细节交给机器去学习归纳,人类提供一些更高层的“架构”(比如层次,注意力等),这是机器学习和深度学习的话题了。

radioLinkPopups

如对本文有任何疑问,欢迎通过 github issue 邮件 metaescape at foxmail dot com 进行反馈