一个简单随机抽样问题的细节

2026-05-10 日 22:08 2026-05-10 日 23:42

问题背景

考虑这样一个问题:某人想知道其所在城市有多少人支持公共场所全面禁烟。

于是在街头随机拦住 50 个人,问他们是否支持,然后计算这 50 人中的支持比例。

直觉上会觉得这个比例应该近似于全城市的真实支持率,或者有某些参考意义。

为什么这种直觉是对的?

一般解释是:可以把每个人的回答看作一个随机变量 \(R_i\),其中 \(R_i = 1\) 表示支持,\(R_i = 0\) 表示反对。由于抽样是随机的,每个 \(R_i\) 都服从相同的伯努利分布,其期望 \(\mathbb{E}[R_i]\) 恰好等于全城的真实支持比例 p。

于是样本均值 \( \bar R_n = \frac{1}{n}\sum_{i=1}^n R_i \) 的期望根据期望线性性质就是 p (无偏),并且根据大数定律,当 n 足够大时,\(\bar R_n\) 会依概率收敛到 p;

这就够了,但如果你还想更精确地知道这个估计值有多准,则可以寻求中心极限定理,它进一步表明,\(\bar R_n\) 的抽样分布近似为正态分布,所以你不单知道这个估计值会接近总体比例,还可以用样本比例来构建置信区间,说出类似“我有 95% 的信念保证这个误差不超过 5%”的话。

为什么也是错的?

本文对这个解释的每一步进行更细的拆分梳理,比如为什么可以把每人的回答看作随机变量,为什么是伯努利分布,为什么每个人的伯努利分布概率 p 是一样的,这里 p 能反应个人倾向于禁烟的信念吗?等等

支持比例和个人对禁烟的信念有关吗?

首先用以下两个极端例子先否定掉统计出来的 p 和个人信念的关系:

  • 仅有两个人的城市

    甲坚决支持禁烟( r = 1),乙坚决反对(r=0)。总体比例 p = 0.5。

    但没有任何一个人的内心信念是“50% 支持、50% 反对”:甲是 100% 支持,乙是 0% 支持。

  • 只有一个人的城市

    这个人在该问题上非常犹豫,内心信念强度为 0.5(即他认为自己支持与反对的可能性各半)。

    最后他通过掷一枚均匀硬币来决定,掷出正面则回答支持(r=1),反面则反对(r=0)。

    假设掷出正面,于是我们观测到的总体比例 p = 1 ,然而他的个人信念是 0.5 。

所以 p 并不反映个人内心的模糊信念强度,更和概率的信念解释(Bayes 主义)解释无关。

否定了 p 和个人信念关系,那它是什么?

这几乎是个显而易见的,假设城市有 10 个人,7 个人支持禁烟 3 个人反对禁烟,那么 p 就是这个城市里支持禁烟的人数比例: 0.7 。

但这里瞬间暴露出以下问题:

  • 10 人城市中,全体均值 p = 0.7 是一个固定的、确定的事实,不是概率,但我们通过“脑补”出一个全新的概率问题,得到了一个和概率有关的值 \( \bar{p} \), 因为概率中有信念解释,所以才问出这个通过概率手段而得到的 \( \bar{p} \) 是否和信念无关。
  • 上一个例子由于过于简单,我们直接统计了城市所有人,因此“估计值” \( \bar{p} \) 和真实比例 p 相等,而我们问的是估计值 \( \bar{p} \) 是否和信念无关,当然在这个例子里由于二者相等,p 和信念无关,因此 \( \bar{p} \) 也和信念无关。

通过这两个极端的例子可知,既然 n=N (N 为全体人数)时的均值和信念无关, \( \bar{p} \) 仅仅是对更少的人(n<N 时)的比例统计,不可能人少了之后的结果就和另一个完全不同的心理学概念产生联系。

这里的假设在于,我们把这种支持与否的主观态度极端化、静态化了,但现实中人的观点本身是概率的且随时间变化的,这是容易混淆个人信念和比例的原因(后文还会就此分析)。如果统计一个客观的量,比如性别,身高是否超过 180cm, 那么更不会有这种混淆。

为什么这是个概率问题?

现在问题是,既然总体均值是一个确定值,为什么我们用一个不确定的对象去做估计?

首先,统计并不一定和概率有关,搜集数据到 Excel 表格,对列排序或求平均,绘制出折线图,这里没有什么概率性。

力学中万有引力公式 \( \frac{Gm_1m_2}{r^2} \) 中的 G 也被认为是固定值,人们搜集了大量数据,但只是认为实验会有偏差,搜集数据也会有误差(比如抄错了),所以要做更多更精确的实验搜集数据得到更准确的值,这里有一些随机性,但我们不倾向于把它看作概率问题,也不会用某个随机变量的函数去估计 G 。

所以为什么这里要用概率去做统计?

一般回答是规模带来的复杂性。

由于城市规模太大(几十万甚至上百万人口),不可能挨家挨户去询问每个人的态度,所以才必须引入随机抽样的想法。

更直观地,可以把全城 N 个人想象成 N 个小球,其中 m 个是红色(表示支持禁烟),剩下的 N-m 个是白色(表示不支持)。

那么总体支持比例就是 p = m/N,这是一个固定的数值,就像红球在总球数中的占比一样。

以离散均匀的概率随机从中抽取一个小球,它正好是红色的概率就是 m/N = p。把这个抽样动作重复 n 次(每次抽完放回,以保证独立性),并把每次抽到红色记为 1、白色记为 0,那么每次抽取的结果 \(R_i\) 就是一个服从伯努利分布的随机变量,参数为 p, 它的期望 \( E(R_i) = 1\cdot p + 0 \cdot (1-p) = p \) 。

\( E(R_i) = p \) 是真正让人禁不住走向随机的关键,在一个纯粹理想的包含小球和均匀随机过程的数学世界中,某种类别据总体的比例 p 和一个概率性的量“期望”建立了等式关系。

我们已经把每个人的观念抽象成 1 和 0 的二值形态,这和红球白球模型完全一样。

因此只要我们能随机选择人并获得它观念的值,那么抽样统计模型和以上小球模型就完全一样了。

在街上随机找 50 个人能接近均匀随机吗?

很难说,如果你在一分钟就问完了,那大概率其中很多是结伴而行或来自同一群体(比如刚下同一辆公交车的乘客),这样每个人的入样概率就不相等了。

同样,来这条街的人并不是全城人口的均匀缩影:可能年轻人居多、或者上班族偏多,无法像小球模型那样保证每个市民被抽中的概率严格相等。

因此,街头拦人只能算是“方便抽样”,与理想均匀随机抓小球有本质差距。

不过在实际调查中,如果扩大采样时段、覆盖多个地点、并采用系统化的拦截规则(例如每隔 5 人拦一个),可以一定程度上逼近均匀随机的效果,从而将街头样本作为粗略的近似估计使用。

随机性来自哪里?

抽样调查的随机性来自哪里?

由前文可知,我们假设每个人观点是静态化的 1 和 0 , 这样可以把 N 个人的观点看作长度为 N 的 0/1 序列 r[n],想知道的就是该序列的平均值,它是固定的。

随机性是人在选择对象时主动构造的,我们不是从 r[0] 开始选,而是构造了一个随机变量 I, 它取值为 0 到 N-1 ,且 \(P(I = i) = 1/N\)。这样 \( r[I] \) 就是一个随机变量,等价于前文使用的 R 和 \( R_i \) 符号。

假设支持者在总体中正好占 \(70\%\),所以 \[ P(R = 1) = \sum_{i: r_i = 1} P(I = i) = 0.7 \times \frac{1}{N} \times N = 0.7. \]

这来自于概率的加法性质:如果一个事件(抽中支持禁烟的人)可以分解为 \(m\) 个互斥的子事件(抽到第 \(i\) 个支持者),那么该事件的概率就等于所有子事件概率之和。于是单个抽样的期望 \(\mathbb{E}[R] = 0.7\)。

整个过程中,随机性只来自“选择谁”的动作,这是人为主动构造的。

这一思路还可以扩展到抛硬币的例子:我们通常说的“硬币正面概率 p,并不是硬币本身的固定属性,而是硬币 + 抛掷动作整体系统的属性。如果你每次只是把硬币直接放在桌面上(不抛),那所谓的“概率”也就失去了原本的意义。

为什么是均匀随机?

接下来的问题是,为什么引入了均匀随机之后,原本是一个全局属性(城市几百万人中某种人的比例)能通过局部的一个变量 R 的期望 \(\mathbb{E}[R]\) 来得到?

当然,并不是写了一个变量 R 它就是一个样本,我们也不是通过计算某个特定对象的属性来管窥全局比例的——\(\mathbb{E}[R]\) 是一个理想的理论分布属性,它在我们知道抽样的概率模型后通过公式 \(\mathbb{E}[R] = \sum_i r_i P(I=i)\) 直接算出来,恰好等于全局比例 \(p\)。

但在现实中,我们并不知道 p 是多少,也无法直接计算这个期望。我们真正依赖的是大数定律:当我们独立重复抽样得到 n 个样本后,其样本均值 \(\bar R_n = \frac{1}{n}\sum_{i=1}^n R_i\) 会依概率收敛到 \(\mathbb{E}[R] = p\)。

由于每次抽样 \(R_i\) 的方差为 \(p(1-p)\),且最大值不超过 \(1/4\)。利用切比雪夫不等式,我们可以保守地估计所需样本量:要使样本均值 \(\bar R_n\) 与 p 的绝对误差不超过 \(\varepsilon = 0.03\) 且置信概率至少为 \(95\%\),需满足 \(\frac{1}{4n\varepsilon^2} \le 0.05\),解得 \(n \ge \frac{5}{\varepsilon^2} \approx 5556\)。这意味着只要随机抽取约 5556 人,就能以很高的概率保证误差在 3 个百分点以内。

进一步,如果用中心极限定理:当 n 足够大时,\(\bar R_n\) 近似服从正态分布 \(N\left(p, \frac{p(1-p)}{n}\right)\)。对于 \(95\%\) 置信水平,取临界值 \(z_{0.025} \approx 1.96\),并要求 \(1.96 \times \sqrt{p(1-p)/n} \le \varepsilon\)。仍用方差上界 1/4,得 \(n \ge \frac{1.96^2 \times 0.25}{\varepsilon^2} \approx \frac{0.9604}{\varepsilon^2}\)。当 \(\varepsilon = 0.03\) 时,\(n \approx 1068\);若允许 \(\varepsilon = 0.05\),则仅需 \(n \approx 385\)。

无论采用哪一种定理,所需的样本量(几百到几千)都远远小于一个百万级人口城市的总体规模。

所以确实可以说,随机性使得我们可以用局部样本估计全局比例。而且切比雪夫不等式本身就从数学上解释了为什么可以这样。

但真的是这样吗?

“随机性使得我们可以用局部样本估计全局” 这句话中的 “局部” 一词是不恰当的,因为少量样本不代表局部。

均匀随机表示的是所有样本都有潜在被选中的可能,这其实是一种潜在的全局覆盖能力。

而均匀使得所有样本等概率被选中,意味着设计中人为不会偏向任何个体,这切断了被选中者与未被选中者之间可能存在的系统性关联,继而导致期望等于比例。

此外“有放回”则保证了独立性,这是使得大数定律或中心极限定理在该问题成立,于是可以用样本期望估计 R 的期望。

所以,总结来看:

  • 随机性 –> 潜在的全局覆盖;提供了用少样本估计全局属性的基础
  • 均匀随机性 –> 样本等概率被选中,排除掉混杂因素,因此随机变量 R 的期望等于总体中样本比例。
  • 有放回 –> 独立性,大数定律/中心极限定理成立,最终可以用少量样本期望估计 R 的期望(等于样本比例)

真的和个人信念无关吗?

在真实调查中,很多人对禁烟问题并没有绝对确定的立场,面对问卷时,是以当时的情绪或某种概率倾向来说出“支持”或“反对”。这时,他们最终的 1 或 0 回答,本身就已经蕴含了个人信念的随机成分。

考虑这样一个场景:假设这个城市对禁烟的宣传教育非常公平和完善,以至于所有人的观点都高度趋同,每个人内心都有 90%的倾向支持禁烟。

也就是说,当被随机抽中并询问时,每个人都会以 90%的概率回答“支持”(记为 1),以 10%的概率回答“反对”(记为 0)。

这时,个人观点已经不再是某个固定的\(r_i\),而是以个人信念为参数的随机变量。

那么,随机抽取 n 个人,每个人的回答\(R_i\)都是一枚“偏向 0.9 的硬币”的一次投掷结果,且由于每个人背后的信念分布相同,这些\(R_i\)独立同分布于\(\text{Bernoulli}(0.9)\)。

于是样本均值\(\frac{1}{n}\sum_{i=1}^n R_i\)的期望仍然是 0.9,并且大数定律和中心极限定理同样保证它会依概率收敛到 0.9,也可以用正态近似构造置信区间。

注意到什么了吗?整个数学框架——\(\mathbb{E}[R_i]=p\),\(\text{Var}(R_i)=p(1-p)\),样本均值的渐近行为和之前“总体中\(pN\)个人固定支持、\((1-p)N\)个人固定反对”的模型完全一致。只是这里 p 被解释为“个体支持禁烟的主观概率”的均值,而非“总体中支持者的固定比例”。

从数据生成的角度看,两种模型产生的观测序列在统计上无法区分:你永远无法单靠观测到的 0/1 序列判断,这个 0.9 究竟是来自一个 90%的人铁定支持的城市,还是来自一个每个人内心有 90%概率支持的城市。

因此,在数学层面,抽样调查既可以被解释为对固定总体构成的估计,也可以被解释为对群体信念分布的估计。

这两种解释共用同一套概率公式,只是背后的故事不同。

现实中,这类涉及到主观意见的问卷调查,“总体比例”与“平均信念”基本被看作同一概念,投票比例本身就解释为群体信念。

注意,这里我们用概率来表示人的信念,这吻合 Bayes 主义对概率的一种解释,但它不是 Bayes 统计的思路,后者是把未知的信念 p 也看作一个随机变量,有概率分布,而非一个固定的实数值。这里我们始终把 p 看作一个固定值,不管是比例还是信念程度。

数学等价不等于实践等价

这种群体信念和总体比例的无法区分让我想到了概率中另一种无法区分的场景:

A 参加一个实验,坐在柜台前,柜台内的人每十秒给他呈现一枚硬币的正反面状态,但 A 看不到硬币是如何被选中的。他长期观察后发现,正反面出现顺序无明显规律,且正面比例约为1/2。那么,A 对该随机过程至少有两种猜测:

  • “函数式”机制:柜台内的人每次都在他看不见的角落重新抛掷一枚均匀硬币,然后将结果呈现给他。
  • “数据式”机制:柜台内的人从一个装有大量硬币的抽屉中随机抽取一枚。这个抽屉里,正面和反面的硬币数量恰好各占一半,每次抽取后会将硬币放回并混匀。

仅凭 A 观察到的硬币序列,他完全无法区分这两种机制,因为它们的现象和数学模型在统计上是等价的。

这引出了两种不同的“采样”实践模式,尽管它们的数学抽象完全一致:

  1. “函数式”采样(常见于计算机科学)

    每个结果都从一个函数或数据库中“新鲜”生成。由于计算机可以高效地执行伪随机数生成函数,这种模式的成本主要在计算上。因此,核心问题是如何快速生成大量样本。根据大数定律,样本越多,对期望的估计就越精确。这也正是蒙特卡罗方法的基石:将确定性问题转化为随机变量的期望估计问题,然后通过海量模拟求解。

  2. “数据式”采样(常见于社会科学、医学等)

    从一个有限的、固定的真实总体(如一座城市的所有市民)中,通过均匀随机抽取来获得样本。这里的“随机性”来自抽样动作,而数据本身(每个人的回答)是无法被“函数”简单模拟的,获取成本非常高。因此,核心问题是:在样本量 \(n\) 无法任意增大(受限于时间、经费)的情况下,如何最有效地估计总体参数?

    由于估计必然存在误差,我们不能抛弃概率语言,而必须为点估计附上额外的说明,例如“有 95%的把握认为总体比例落在 \([0.57, 0.63]\) 区间内”。这构成了统计推断(特别是抽样调查和置信区间理论)的核心问题。

无论是“函数式”还是“数据式”,大数定律和中心极限定理都为它们提供了相同的数学支持。然而,机制上的根本差异(成本在计算 vs. 成本在数据采集)导致了两套不同的实践方案。

radioLinkPopups

如对本文有任何疑问,欢迎通过 github issue 邮件 metaescape at foxmail dot com 进行反馈