令人困惑的泊松过程
无异议的伯努利实验
在一种随机实验里,某个事件发生的概率为 p, 不发生概率为 1-p … 还不等你产生困惑,我继续说: 比如抛一个硬币,正面概率是 1/2 ,反面也是 1/2…
于是你得知,对我来说,抛硬币可以称为“随机实验”,这次对话中你获得的有用信息不是关于实验的内容,而是关于“随机实验”这个新名词。
这是因为,作为一个有很强怀疑倾向但不是彻底怀疑的人,你不会质疑抛硬币的真实性或正确性,也不会质疑它会出现随机的结果,更有可能出现质疑的点是硬币是否是绝对均匀,因此刚才我说正面概率是 1/2, 你有可能产生一点回应的冲动,但如果是一个代数符号 p, 你只会在脑中假设出一个接近 1/2 或就是 1/2 的值,并顺利地接受这段描述。
因为有其他不同类型的随机实验,比如抛掷骰子,为了区分,我们就说这种只关注某事件发生与否的实验是伯努利实验,而连续不断地执行相同的实验的过程称为伯努利过程。
于是你又学会了两个新的名词。你认为信息量太低了,听君一席话,如听一席话。
于是我说 AXYz, 你感到疑惑,反问这是什么?我说 AXYz 是桌子,那么刚才的困惑完全消失了。
这就像是递归过程的终点判断 ,你只需要在认知上进行一次查表,通过 AXYz 查询到“桌子”,而剩下的关于桌子的所有认知和对理解的自我判断都一同涌现了,因为桌子对你来说是非常坚实的经验对象。
同样地,我告诉你伯努利试验是抛硬币,伯努利过程是连续的抛硬币,于是你建立起新名词到现实中某个特定场景的对应。
我说这种将概念锚定到经验世界的过程称为 grounding ,可以将其翻译为接地或下地。
你听到递归有点兴奋,但仍然抱怨我先给出了 3 个名词,其中还有一个莫名其妙的乱码 AXYz,等自己不感兴趣时反而变本加厉继续说理解这些名词的过程称为 “接地”或“下地”,所以最后我给你输出了 5 个新的名词。
我接受你的抱怨。
你觉得后两个名词太容易有歧义,让人想到电路里的接地或者下地种田,应该换一个,于是我们讨论一番决定叫它 "入地" 。
伯努利过程中的数学切片
因为这番关于 grounding 的命名讨论,你至少没有完全反感我们的对话,顺道接受了除 AXYz 之外的其他词汇,于是我们可以讨论一些数学上的问题。
我问:前两次都是正面的概率是多少?
你马上回到说应该是 \( \frac{1}{4} \), 然后改口说是 \( p^2 \) ,并解释说因为两次抛硬币一般认为是不会相互干扰的,一件事情发生的概率是 p, 两件同时发生就是概率相乘。
我从你的口误中窥探到你下意识里还是接受硬币可能是完全均匀的,但当你意识到的时候则马上掩饰住它。
但我不想在这个问题上扩展,于是我说你的直觉很对,这种不会互相干扰的事件称为独立事件,而独立事件同时发生的概率就是各个事件概率的乘积,这种直觉上的规则已经被概率论吸纳成了铁律。
我再问,在连续抛硬币中,第 k 次才出现正面的概率是多少?
此时你没法凭直觉脱口而出了,你先得对语言进行简单地分析:“第 k 次才出现正面” 中 "才出现证明" 意味着之前没有出现过正面,因此问题转为另一句话:抛了 k 次硬币,前 k-1 次是反面,最后一次是正面。这种表达使得你知道了每次抛硬币的具体结果。
你完全切换到数学符号领域,基于独立性所蕴含的乘法代数规则进行推理,得到概率是 \( (1-p)^{k-1}p \)
我说这个公式被称为几何分布,它的一种现实解释就是连续抛硬币 k 次才出现正面的概率。
你说几何分布被 grounding 到了这种让人类很容易直观理解的活动上,同时又被绑定到一个抽象的如 AXYz 一般的公式字符串上。
我觉得这种表述很有趣,于是又对此展开了一番讨论,认为刚才的“几何分布”进行了一次认知上的“上天入地”,下地是因为和人类数学的经验绑定,使得可以谈论几何分布的意义,用它去解决问题,上天是和纯符号的数学公式绑定,这样可以找到它和其他数学对象的关系。“上天”一词也是你的提议,因为你觉得数学属于天上,就像柏拉图所说的理想国一样。
我继续问,抛 n 次硬币中出现 k 次正面的概率是多少?你解析这段话,发现要将其翻译成不同概率事件可能性的组合,并且能拆分成 C(n,k)个子事件,然后计算出各个事件概率并求和得到总概率为 \( C(n,k)p^{k}(1-p)^{n-k} \) 。
我说这个关于 n 和 k 的概率表达式称为二项分布,你又获得了关于新名词“二项分布”所绑定的数学表达式以及一种现实场景的解释,或者说 "二项分布" 在你脑中经历了一次上天入地。
我问了一个混合了以上两个问题的新问题:抛 n 次硬币才出现 k 次正面的概率是多少?
"才" 字又需要被细分,它意味着第 n 次抛硬币时正好是第 k 次正面,等价于前 n-1 次里出现了 k-1 次正面的事件以及最后一次是正面的事件,概率为 \( C(n-1,k-1)p^k(1-p)^{n-k} \), 我说它被称为帕斯卡分布。
当然我们还可以问很多计算上的问题,比如 n 次抛硬币中平均会有多少次正面,平均抛多少次会出现第一个正面等等,你总是先解析语言,把问题描述转成一个更接近概率中计算规律的表达,然后利用规律进行推理得到一个新的公式,你接受我提供的标签,给这个公式添加上一个名词,从而建立的理解,让新名词“上天入地”。
你额外意识到伯努利过程是一个动态的对象,而这些问题和结果只是实验中的一个个静态切片,对此你并没有太多疑惑。
伯努利过程中的一点点裂缝
接着我说,伯努利过程可以执行无穷次,想象有一个机械手臂在不断地抛硬币,没有设置具体的关机时间,刚才的那些切片还合理吗?
你思考片刻说,没有任何问题,比如抛 n 次中出现 k 次正面的概率,取无限次实验中的任何连续的 n 次,结果都是一样的,甚至不需要是连续的,随机选 n 次实验其中出现 k 次正面的概率还是二项分布,这种随机选择也同样适用于几何分布和帕斯卡分布。
从这个角度看,静态切片所关注的问题背后的物理机制在任何时间片段上都不会改变,所以计算方法和结果才都是一样的,我说这称为时间平移不变性。
但如果说 n 次中出现 k 次正面,其中 n 是无穷呢?
你觉得从抽象的符号上思考不太直观,于是代入一个特例,即 k=1 的时候,概率是 \( C(n,1)p(1-p)^{n-1} = np(1-p)^{n-1} \) 这还是不够直观,于是代入 1/2 得到 \( \frac{n}{2^{n}} \), 当 n 趋于无限它是 0, 于是你推断其他有限 k 的情况下也是 0 。
我问到,为什么是 0 呢?
你可以理解问题中的无穷,但却无法想象机械手臂抛了无穷次硬币的场景,你说你能理解的无穷只是想象随着机械手臂抛的次数越来越多,整个结果序列逐渐变长,比如 1, 10, 101, 10111010001..,根据独立事件概率相乘的规则,任何事件序列的概率都在以指数速度衰减,均匀硬币下是 \( (\frac{1}{2})^n \) ,即便出现 k 次正面不单单对应一个结果序列,而是有 C(n,k) 个,但它的增长速度无法超过指数衰减,最终都是 0
你总结说 0 的根源来自于任何无穷个实验结果组成的序列的概率都是 0 ,这有点像连续的直线上采样,任何一个值被采样的概率都是 0.
我回答说,我们可以计算 [0, 1] 区间里采样数值落在 [0, 0.5] 的概率,它就是 0.5 。
你表示认同,并说,正如我们也可以谈论无穷次抛硬币的场景中,第一个硬币是反面的概率,也是 0.5 。
你发现只要和无穷摊上关系,即便是最简单的抛硬币活动,在某些视角下也会变得连续起来,也会变得更不容易琢磨。
有些人会拒绝回答任何包含无穷的数学问题,就像健康的电影市场会拒绝任何出现极端暴力的画面一样,无穷对它们来说是极端的,可不是吗?它本身就是极端的极端,还有比无穷更极端的吗?
但至少你没有听到抛无穷次时就拒绝回答,你以一种更灵活的姿态去看待它,你不是否定无穷的存在,只是绕过了很多人认为的“无穷”,或者说,你偷换了概念,把无穷变成了有穷的延伸过程,这样至少我们能谈论它了。
我说,你重新定义了无穷,就像我重新定义了 AXYz 是桌子一样。
你表示认同,说这是因为无穷本身不是经验中的坚实对象,每个人对“无穷”一词有不同的 grounding 方式,你只是让它重新入地了,而且这种解释听上去不会太过于违背“无法穷尽”的含意。
变得微妙起来的泊松过程
听到这样的回答,我觉得是时候可以在无穷上继续延伸下去了。
于是我说,某人犯罪之后被惩罚抛硬币,它每次把硬币扔到牢房外 10 米远处一个机器人的手掌上,只有硬币立在手掌上他才能被释放,否则机器人会把硬币捡回来重新交给他,这需要 1 分钟时间。 问他在第 k 分钟才被释放的概率是多少?
你所这还是几何分布,因此概率是 \( (1-p)^{k-1}p \) ;只不过概率 p 变得很小了。
我说没错,这种情况下几乎不会去测硬币立起来的概率是多少,而是变成另一种说法,即历史统计上看,参与这种刑法的犯人平均需要 1 年才能出狱
灯泡类比的失败
此处的困惑主要是数学上描述“连续性”所带来的概念上困惑,即我们如何能用精确且简练的语言去描述完全稠密的连续时间,记录在该连续体上发生的离散的均匀事件,并给它赋予一个概率值,不如将其称为在连续中离散均匀计数问题。
.
极端情况下的匹配
时间离散化了,人是容易理解的,但人并不会均匀地抛硬币,你抛了一次之后可能停下来喝杯水,再继续抛,
几乎完全的均匀只在工程约定中,比如约定时钟周期
但在泊松过程中,事情变得微妙起来,你当然知道有些事情在某个时间点出现是合理的,比如 12:31 分公交车会到站,因此用数学去描述这种在某个时刻发生一件事情并不会让你感到困惑,但如果给它加上一个概率,比如 12:31 分来公交的概率是 1/3 ,事情开始变得微妙起来,
但要求在连续均匀的自然流逝的时间中保持均匀稳定的发生频率,这是很难的,往往是在自然的极端情况下,
如果要从伯努利过程过渡,那么把长度为 t 的时间段切分成 n 段,并且让 n 无限增大,同时保持抛出正面的期望 np 为常数,它只和时间长度有关 \( \lambda t \),p 和 n 成反比,这意味着切分越细,每次抛出正面概率越低。 几何分布就是 \( p(1-p)^{n-1} = \frac{\lambda t}{n}(1-\frac{\lambda t}{n})^{n-1}\), 如果对它取极限,自然会得到 0, 因为它所描述的是在切分为 n 次之后,最后一刻才扔出正面的概率,但 n 非常大的时候,区间和 p 非常小,因此发生概率为 0 我们关注的是概率密度,因此要转到累积分布,考虑第一次抛
泊松分布的意义是,在时间 t 内到达 k 次的概率 \( P(k,t) = e^{-\lambda t}\frac{(\lambda t)^k}{k!} \) 这对应伯努利过程中二项分布,即在 n 次抛硬币中 k 次为正的概率 \( P(n,k) = C(n,k)p^k(1-p)^{n-k} \), 令 \( np=\lambda t \) 等于常数,并且对 n 求极限可以得到泊松分布。
从指数分布表示第一次到达所需时间 t 的概率密度 \( f_{T}(t) = -\lambda e^{\lambda t} \), 它对应的是伯努利过程中的几何分布,即第一次成功花费 k 次实验概率: \( P(k) = p(1-p)^{k-1} \);指数分布是泊松过程中最小分治单位,它用来概念上和伯努利过程对齐是最方便的,但公式等价上,通过二项分布求计算更方便对齐到泊松分布。
而伽马分布或者 erlang 分布是抛出第 k 次所花费时间的概率密度(注意不是概率,因为精确的时间 t 概率为 0): \( f_{T_k}(t) = \frac{\lambda^kt^{k-1}e^{-\lambda t}}{(k-1)!} \), 它可以通过多个指数分布的卷积,或者 Laplace 变换后的乘积再做逆变换而得到 它对应的是伯努利过程中的帕斯卡分布,即抛出第 k 次所需的总次数 n 的概率 \( P(n,k)=C(n-1,k-1)p^{k}(1-p)^{n-k} \) 它和二项分布很接近,正如伽马分布和泊松分布概率在公式上很接近
- 在从泊松过程规约到伯努利过程中,会用到类似黎曼和的离散化思维,即把连续时间分成间隔为 \( \delta \) 的多个小段,由于 \( \lambda \) 刻画的是单位时间内的到达次数,那么 \( \lambda \delta \) 就是在短时间间隔内的平均到达次数,这类似正弦波在某个时间里的周期数,但当 \( \delta \) 很小甚至取无限小,正如一个短时间里不会出现完整的周期,该时间段也不会有真正的到达,它变成了一种频率,比如平均到达 0.1 次,而频率是一种概率解释,因此 \( \lambda \delta \) 变成了在离散间隔中发生一次的概率 p, \( 1-\lambda \delta \) 则是不发生的概率 1-p, 那么发生两次或以上的概率呢?
公理化和语言游戏
泊松过程是有公理的,平稳性,独立性和一般性(小区间概率) 这更多是一个语言学上的问题,我们如何能简介,精确地描述出以上直觉上假设的性质呢?
公理来自于对无限的约束
模型都是错的
所以你得到了什么呢?
你倾向于认为数学都是错的,因为数学是描述现实事件的一种模型,但只要不超过特定场景下人的容忍极限,它就是对的。
伯努利实验是数学模型,它是错误的,因为现实中的硬币每次抛都会粘到新的灰尘或者手上的汗渍,概率是变化的,但它的变化幅度在人为无法察觉的范围内,或者说,是在那个特定场景下结果可以容忍的范围内(也许人可以察觉,机器也可以察觉,但这种察觉后的误差并不影响目的,因为人本身不是精确的,人做的事情的许多目的不是精确的,你不需要精确地吃 200g 米饭,201g, 甚至 300g 都可以被容忍),因此它是一个好模型。
数学在不断定义中对齐特定领域,因此有些领域数学看上去无比正确,因为这些领域会受到数学的影响,与数学保持趋同,比如工程领域,电容电感电阻都是为了线性性质而设置的,并且用特定的电压/功率将其限制在人们遵循数学所得到的相对简单的算术空间中,一方面满足了需求,一方面控制了认知的复杂度。你可以感叹,它完美了,竟然可以用复数阻抗去统一电容,电感和电阻的计算,但这是因为人为将电容电感的性质限制在其中,因此我们惊叹的应该是,竟然能够认为地把它限制到如此简单且精确的场景,而不是竟然二者如此契合。
伯努利过程是相对自然的,当你用抛硬币这种真实场景理解了伯努利过程,即每次实验只有两个结果: 1 和 0, 分别对应概率为 p 和 1-p,那么理解伯努利过程就像鱼对水的感觉一样自然,也就是连续抛多次硬币的场景,或许可以说,数学和现实在伯努利实验/过程此处对齐了。
连续地不断重复这个实验,你不会怀疑这种对实验描述的合理性,因为它符合人类的日常直觉,而且还能获得掌控感:你拿起硬币就可以开始模拟这个过程,因此不太会觉得伯努利过程或多次伯努利实验是一种理想的数学对象,