线性回归的统计和概率解释
线性回归的几何解释 一文中,从一般的 Xw=y 到岭回归时,开始考虑模型和数据都可能存在误差的问题,不再把方程看作必须严格满足的约束,而是同时去拟合误差和选择最优解。
不过,这一阶段仍然没有真正引入数学意义上的概率。所谓"不确定性",更多是一种定性的假设,不是严格数学定义的对象。
当随机变量及其概率分布被引入后,可以进一步假设观测值并不是固定产生的,而是由某个随机机制生成:
\( y=Xw+\epsilon, \)
其中 \( \epsilon \) 是具有给定分布(如高斯分布)的随机变量。
这里建模对象发生了变化。我们不再把数据看成一组孤立的几何点,而是某个随机过程的一次观测结果。模型需要描述的不只是数据之间的空间关系,还包括这些数据为什么会以这样的方式出现。
概率模型提供了“一次性”的数据生成的视角,我们可以观察到外部世界中某些数据的产生过程,然后把这个产生过程的信息也近似地映射到数学中去,这比直接观察到静态的空间结构然后映射成几何语言更丰富一些。比如高斯分布是现实中某些问题里经常观测到的结果,那么假设 Xw+e 中的 e 是高斯分布就有一定的现实解释力,这种解释来自于数据产生的方式是否和一般观测到高斯分布场景的过程类似。
一个类比是,如果只能看到夜空中某一时刻星星的位置,我们最多只能根据空间分布进行分类,例如划分星座,这是一种只有距离而不带其他结构的几何描述。
当持续观测星体的位置变化时,我们开始能够讨论轨道、速度以及周期等运动规律,此时观测数据中出现了一些更高层的稳定几何结构,比如圆,平面,椭圆,可以用这种轨迹结构去做预测,谈论物体接下来会如何运动,比之前孤立的点丰富了很多。
但它仍然没有回答"为什么会出现这种结构?"
等到牛顿提出万有引力定律后,人们开始把这些运动理解为某种普遍规律的结果。虽然引力本身为什么存在仍然未知,但至少不同的天体运动可以统一地解释为同一种作用规律的表现,人们可以用这个规律去谈论行星为什么运动。
概率统计是在牛顿定律层面吗?
并不是,它是在描述运动轨道的层面构造的一种描述信息生成的语言,而不是描述确定性机制的语言,比如测量行星轨迹的时候,第一天测量了 1.001, 第二天 1.002, 第三天 0.997. 概率能给这种不确定性建立一个函数描述,不同的值对应一个生成的概率,但它不会解释为什么会有一个如此稳定的轨道,也不会解释为什么有噪声,这些噪声可能来自各方面,比如抄写误差,设备误差,但它们都被抽象掉变成数据之间信息的规律。
不过,仅仅这一层抽象就已经极大增强了我们描述现实的能力。很多时候,我们并不需要知道世界为何如此运行,也不需要建立完整的物理机制,只要能够准确描述观测数据之间的统计规律,就足以完成预测、估计甚至决策。例如房价预测、图像识别等问题,它们真正利用的是信息层面的“运动”规律,而不是底层物理机制。
回归的概率解释
有了这种能描述“信息动态”的语言,我们看它能如何重新去描述最小二乘法。
我们把观测值 y 不再看作确定性的计算结果,而是一个随机变量,给定输入 \(X\) 后,它服从某个条件概率分布 \(p(y|X; w)\)。
而这个分布可以用以下更细的公式决定:
\[ y_i = x_i^T w + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0, \sigma^2) \]
在真实线性规律 \(x_i^T w\) 的基础上,叠加了一个独立的高斯(正态)噪声 \(\epsilon_i\) ,它不解释噪声来自抄写误差还是设备误差,只是从信息层面统一描述为围绕均值的随机波动。
\(y_i\) 在给定 \(x_i\) 和参数 \(w\) 后,就服从一个以 \(x_i^T w\) 为中心的高斯分布:
\[ p(y_i | x_i; w) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - x_i^T w)^2}{2\sigma^2} \right) \]
对于全部 \(m\) 个独立观测样本,观测数据出现的联合概率(即似然函数 \(L(w)\))为各点概率的乘积:
\[ L(w) = \prod_{i=1}^{m} p(y_i | x_i; w) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - x_i^T w)^2}{2\sigma^2} \right) \]
为了计算方便,取对数得到对数似然(log-likelihood):
\[ \ell(w) = \log L(w) = \text{C} - \frac{1}{2\sigma^2} \sum_{i=1}^{m} (y_i - x_i^T w)^2 \]
要最大化观测数据出现的概率,等价于最小化 \(\sum_{i=1}^{m} (y_i - x_i^T w)^2\) ,也就是最小二乘目标函数 \(\|y - Xw\|^2\)。
注意这里 \( \epsilon_i \) 的方差可以是任意的,比如是 \( \lambda \) ,只要保证每个样本上的方差都相同。
岭回归的概率解释
在贝叶斯统计视角下,我们不仅关注数据,还关注参数 \(w\) 自身出现的可能性。我们可以给 \(w\) 赋予一个先验分布(prior)。假设 \(w\) 的每一个分量都独立地服从均值为 0 方差为 1 的高斯分布,w 的联合概率分布就是
\[ p(w) = \prod_{j=1}^{n} \frac{1}{\sqrt{2\pi\tau^2}} \exp\left( -\frac{w_j^2}{2} \right) = \text{C} \cdot \exp\left( -\frac{1}{2} \|w\|^2 \right) \]
且模型为 \( Y=x^TW+\epsilon_{\lambda} \), 这里 \( \epsilon_{\lambda} \) 是方差为 \( \lambda \) ,期望为 0 的高斯分布。
根据贝叶斯定理,看到数据后 w 的后验概率(posterior)为:
\[ p(w | X, y) \propto p(y | X; w) \cdot p(w) \]
取对数后:
\[ \log p(w | X, y) = C - \frac{1}{2\lambda } \|y - Xw\|^2 - \frac{1}{2} \|w\|^2 \]
最大化它就等于最小化 \[ \|y - Xw\|^2 + \lambda \|w\|^2 \]
这就是岭回归的目标函数。
概率解释的灵活性
至此,我们用两个特定的概率假设模型分别覆盖了一般的回归模型和岭回归:
- 假设在线性机制 Xw 上叠加了一个独立的同分布的标准高斯噪声就得到一般回归
- 继续给参数赋予一个先验分布,就得到了岭回归
因此从表达能力上,概率模型可以重新解释前文提到的几何结果,只要稍微一变化,比如你观察到噪声的分布不是平滑的钟型,而有点尖锐,那么可能会选用 Laplace 噪声 \( p(\epsilon) ~ e^{-\mid \epsilon \mid} \), 最大似然概率就变成了最小化 Xw-y 的 L1 范数。