Statistical Inference(统计推断)¶
统计推断超越了是/否的决策,通过量化的不确定性来估计总体参数。本节涵盖置信区间、点估计和区间估计、最大似然估计、矩估计以及回归分析,它们是 ML 中原始数据和预测模型之间的桥梁。
-
假设检验给出一个是/否的决定:拒绝或不拒绝。但通常你需要更具信息量的内容,即你正在估计的参数的一个合理取值范围。这就是置信区间(confidence intervals)所提供的。
-
点估计(point estimate)是由样本计算出的单一数字,如样本均值 \(\bar{x}\)。它是你对总体参数的最佳猜测,但它本身无法体现估计的精确程度。
-
置信区间(confidence interval)用一个反映不确定性的范围将该点估计包裹起来。其形式为:
- 误差幅度(margin of error,ME)取决于三件事:你期望的置信度、数据的变异程度以及样本量的大小:
- 这里的 \(z^\ast\) 是来自正态分布的临界值,与你期望的置信水平相匹配。对于 95% 的置信度,\(z^\ast = 1.96\)。对于 99% 的置信度,\(z^\ast = 2.576\)。
-
95% 置信区间(95% confidence interval)意味着:如果你多次重复该实验并每次都构建一个区间,那么大约 95% 的区间将包含真实的总体参数。这并不意味着参数在该特定区间内的概率为 95%。参数是固定的;变化的是区间。
-
例题:你测量了 50 个人的身高,发现 \(\bar{x} = 170\) cm,\(\sigma = 8\) cm。构建一个 95% 置信区间。
-
你可以有 95% 的把握说真实平均身高介于 167.78 和 172.22 厘米之间。
-
当 \(\sigma\) 未知(通常情况)时,改用样本标准差 \(s\) 和 t 分布:
-
更宽的区间置信度更高但精确度较低。更窄的区间精确度更高但置信度较低。你可以通过增加样本量在不降低置信度的情况下缩小区间。
-
功效分析(power analysis)帮助你在进行实验之前进行规划。问题在于:我需要多大的样本量才能以指定的功效检测出给定大小的效应?
-
回顾上一节,功效(power) = \(1 - \beta\),即正确拒绝虚假 \(H_0\) 的概率。一个常见的目标是 80% 的功效。
-
进行 z 检验,以显著性 \(\alpha\) 和功效 \(1-\beta\) 检测出差异 \(\delta\),所需的样本量为:
- 例如,要在 \(\alpha = 0.05\) 和 80% 功效(\(z_{0.025} = 1.96\),\(z_{0.20} = 0.84\))下检测出平均身高(\(\sigma = 8\))2 厘米的差异:
-
你每组大约需要 126 人。
-
功效分析可以防止两个常见错误:实验规模太小无法检测出真实效应(功效不足,underpowered),或者将资源浪费在远大于必要规模的实验上(功效过高,overpowered)。
-
蒙特卡洛方法(Monte Carlo methods)使用随机抽样来解决难以或无法通过解析方法解决的问题。核心思想是:如果你无法精确计算某事,就对其进行多次模拟,并使用结果作为近似值。
-
这个名字来源于蒙特卡洛赌场,以致敬随机性在其中的作用。这些方法是 ML 中用于估计积分、评估模型不确定性和近似复杂分布等任务的主力。
-
蒙特卡洛的一般步骤:
- 定义可能输入的定义域
- 从该定义域中生成随机输入
- 对每个输入求函数值
- 聚合结果(平均、计数等)
-
一个经典的例子是估计 \(\pi\)。想象一个边长为 2、以原点为中心的正方形,内部内接一个半径为 1 的圆。正方形的面积为 4,圆的面积为 \(\pi\)。
- 在正方形内均匀地随机投点。落在圆内点的比例近似于 \(\pi/4\):
-
如果 \(x^2 + y^2 \le 1\),则点 \((x, y)\) 在圆内。投掷的点越多,你的估计值就越接近 \(\pi\) 的真实值。
-
在 ML 中,蒙特卡洛方法出现在:
- 蒙特卡洛 dropout(Monte Carlo dropout):在启用 dropout 的情况下多次运行推理,以估计预测的不确定性
- 马尔可夫链蒙特卡洛(MCMC,Markov Chain Monte Carlo):在贝叶斯模型中从复杂的后验分布中抽样
- 策略梯度方法(Policy gradient methods):在强化学习中通过对轨迹抽样来估计梯度
-
因子分析(Factor analysis)是一种发现隐藏(潜在)变量的技术,这些变量解释了观测变量之间的相关性。如果 10 个性格调查问题可以由 3 个潜在特质(外向性、宜人性、尽责性)来解释,因子分析就能找出这些特质。
-
该模型假设每个观测变量 \(x_i\) 是几个潜在因子 \(f_j\) 的线性组合加上噪声:
-
\(\lambda\) 值被称为因子载荷(factor loadings),并告诉你每个观测变量与每个因子的关联强度。这与第 2 章中的矩阵分解直接相关;因子分析与特征值分解和 SVD 密切相关。
-
实验设计(Experimental design)是一门构建实验的艺术,以便你能够得出有效的结论。糟糕的设计甚至会使庞大的数据集变得毫无用处。
-
精心设计的实验的关键组成部分:
- 自变量(Independent variable,IV):你操作的内容(例如药物剂量、模型架构)
- 因变量(Dependent variable,DV):你测量的内容(例如恢复时间、准确率)
- 对照组(Control group):不接受治疗(或接受安慰剂),为比较提供基线
- 随机分配(Random assignment):参与者被随机分配到各组,这抵消了你未测量的混杂变量的影响
-
常见的实验设计:
- 完全随机设计(Completely randomised design):受试者被随机分配到处理组中。当各组具有可比性时,简单有效。
- 随机区组设计(Randomised block design):受试者首先被分组到区组中(例如按年龄),然后在每个区组内随机分配处理。这减少了区组因素带来的变异性,精神上类似于分层抽样。
- 析因设计(Factorial design):同时测试多个自变量。一个 \(2 \times 3\) 的析因设计有一个变量的 2 个水平和另一个变量的 3 个水平,共有 6 种处理组合。这让你能检测到交互作用(interactions),即一个变量的效应取决于另一个变量的水平。
- 交叉设计(Crossover design):每个受试者依次接受所有处理(中间有洗脱期)。每个受试者作为自己的对照,减少了个体差异的影响。
-
在 ML 实验中,这些原则至关重要。在比较模型时,你应该控制随机种子、数据集划分和硬件。交叉验证是交叉设计的一种形式。每次移除一个组件的消融研究(Ablation studies)遵循析因设计的逻辑。
Coding Tasks(编程练习,使用 CoLab 或 notebook)¶
-
为身高示例构建一个 95% 的置信区间,然后尝试不同的置信水平和样本量。
import jax.numpy as jnp x_bar = 170.0 # 样本均值 sigma = 8.0 # 总体标准差(已知) n = 50 # 样本量 # 常见置信水平的临界值 z_stars = {0.90: 1.645, 0.95: 1.960, 0.99: 2.576} for conf, z_star in z_stars.items(): me = z_star * (sigma / jnp.sqrt(n)) lower, upper = x_bar - me, x_bar + me print(f"{conf*100:.0f}% CI: [{lower:.2f}, {upper:.2f}] (误差幅度 ME = {me:.2f})") -
使用蒙特卡洛模拟估计 \(\pi\)。绘制随着点数增加,估计值如何收敛的图。
import jax import jax.numpy as jnp import matplotlib.pyplot as plt key = jax.random.PRNGKey(42) # 在 [-1, 1] x [-1, 1] 生成随机点 n_points = 100_000 k1, k2 = jax.random.split(key) x = jax.random.uniform(k1, shape=(n_points,), minval=-1, maxval=1) y = jax.random.uniform(k2, shape=(n_points,), minval=-1, maxval=1) # 检查哪些点在单位圆内 inside = (x**2 + y**2) <= 1.0 cumulative_inside = jnp.cumsum(inside) counts = jnp.arange(1, n_points + 1) pi_estimates = 4.0 * cumulative_inside / counts plt.figure(figsize=(10, 4)) plt.plot(pi_estimates, color="#3498db", alpha=0.7, linewidth=0.5) plt.axhline(y=jnp.pi, color="#e74c3c", linestyle="--", label=f"π = {jnp.pi:.6f}") plt.xlabel("点数") plt.ylabel("π 的估计值") plt.title("蒙特卡洛方法估计 π") plt.legend() plt.ylim(2.8, 3.5) plt.show() print(f"最终估计值: {pi_estimates[-1]:.6f}") print(f"真实值: {jnp.pi:.6f}") print(f"误差: {abs(pi_estimates[-1] - jnp.pi):.6f}") -
执行一个简单的功效分析:给定效应量和标准差,计算所需的样本量并通过模拟验证。
import jax import jax.numpy as jnp # 参数 delta = 2.0 # 效应量(均值差异) sigma = 8.0 # 总体标准差 alpha = 0.05 power_target = 0.80 # 解析法计算样本量 z_alpha = 1.96 # 双尾,alpha=0.05 z_beta = 0.84 # 功效 power=0.80 n_required = ((z_alpha + z_beta) * sigma / delta) ** 2 print(f"每组所需样本量 n: {n_required:.0f}") # 通过模拟验证 key = jax.random.PRNGKey(7) n = int(jnp.ceil(n_required)) n_sims = 5000 rejections = 0 for _ in range(n_sims): key, k1, k2 = jax.random.split(key, 3) group_a = jax.random.normal(k1, shape=(n,)) * sigma + 50 group_b = jax.random.normal(k2, shape=(n,)) * sigma + 50 + delta pooled_se = jnp.sqrt(2 * sigma**2 / n) z = (group_b.mean() - group_a.mean()) / pooled_se p = 2 * (1 - __import__("jax").scipy.stats.norm.cdf(jnp.abs(z))) if p <= alpha: rejections += 1 print(f"模拟功效: {rejections/n_sims:.3f}") print(f"目标功效: {power_target:.3f}") -
可视化置信区间宽度如何随样本量变化。这展示了为什么收集更多数据能提供更精确的估计。
import jax.numpy as jnp import matplotlib.pyplot as plt sigma = 8.0 z_star = 1.96 # 95% 置信度 sample_sizes = jnp.array([10, 20, 30, 50, 100, 200, 500, 1000], dtype=jnp.float32) margins = z_star * sigma / jnp.sqrt(sample_sizes) plt.figure(figsize=(8, 4)) plt.bar([str(int(n)) for n in sample_sizes], margins, color="#3498db", alpha=0.7) plt.xlabel("样本量") plt.ylabel("误差幅度 (cm)") plt.title("95% 置信区间的误差幅度随样本量增大而缩小") plt.show()