样本均值的抽样分布与中心极限定理(CLT)

抽样分布与中心极限定理

样本均值的抽样分布与中心极限定理(CLT)

🎯 背景:作为随机变量的样本均值

由于从一个样本到另一个样本我们可能得到不同的样本均值,因此样本均值本身就是一个随机变量,并具有自己的分布。

核心问题:样本均值 \(\bar{X}\) 的分布是什么?

答案取决于两件事:

  • 原总体是否服从正态分布?
  • 样本大小 n 是多少?

📊 总体参数

描述分布或总体的量称为参数:

\(\mu\)

总体均值

(也称为期望)

\(\sigma^2\)

总体方差

\(\sigma\)

总体标准差

\(\sigma = \sqrt{\sigma^2}\)

⭐ 样本均值分布的性质

性质 1:样本均值的期望

\(E(\bar{X}) = \mu_{\bar{X}} = \mu\)

所有可能样本均值的平均值等于总体均值

性质 2:样本均值的方差

\(V(\bar{X}) = \sigma_{\bar{X}}^2 = \frac{\sigma^2}{n}\)

所有样本均值的方差等于总体方差除以 n

(此性质仅对随机抽样成立)

性质 3:标准误差(Standard Error)

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)

样本均值的标准差称为 "标准误差"

💡 重要洞察:样本大小与样本均值方差之间存在反比关系。

样本越大 → 方差越小 → 均值越集中在 μ 附近

📈 样本大小对方差的影响

μ n=10 n=30 n=100 不同样本大小下样本均值的分布

结论:随着样本大小的增加,样本均值的分布变得:

  • (方差更小)
  • 集中在总体均值 μ 附近

🔔 情形 1:从正态分布抽样

如果:我们从其变量服从正态分布、均值为 μ、方差为 σ² 的总体中抽样

那么:样本均值也服从正态分布!

\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

💡 注意:在这种情况下,样本均值对任何样本大小 n 都服从正态分布,即使 n 很小!

🌟 中心极限定理(Central Limit Theorem - CLT)

定理:

如果总体服从任何分布(不必是正态!),均值为 μ,方差为 σ²,

那么对于足够大的样本,样本均值近似服从正态分布:

\(\bar{X} \xrightarrow{n \to \infty} N\left(\mu, \frac{\sigma^2}{n}\right)\)

🎯 这是统计学中最重要的定理之一!

❓ 何时样本 "足够大"?

经验法则:通常 \(n \geq 30\) 就够了

但这取决于原分布:

  • 对称分布:相对较小的 n(15-20)也可能足够
  • 不对称分布:需要更大的 n(30+)
  • 高度不对称分布:需要非常大的 n(50+)

📊 中心极限定理的图示

原始分布 (不对称) 抽样 n 大 样本均值的分布 (近似正态) μ 中心极限定理的核心信息: 无论原始分布形状如何 — 如果取足够多观测(n 大), 样本均值就近似服从正态分布!

🧮 样本均值的 Z 分数计算

\(Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}}\)

💡 注意区别:

  • 对于单个观测 X\(Z = \frac{X - \mu}{\sigma}\)
  • 对于样本均值 \(\bar{X}\)\(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)

✏️ 详细例子

题目:新生儿出生时的体重分布的均值为 μ = 3.2 千克,标准差为 σ = 0.5 千克。

抽取 36 个新生儿。样本均值大于 3.35 千克的概率是多少?

步骤 1:识别数据

\(\mu = 3.2, \quad \sigma = 0.5, \quad n = 36\)

步骤 2:计算标准误差

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} = \frac{0.5}{\sqrt{36}} = \frac{0.5}{6} = 0.0833\)

步骤 3:计算 Z 分数

\(Z = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}} = \frac{3.35 - 3.2}{0.0833} = \frac{0.15}{0.0833} = 1.8\)

步骤 4:计算概率

\(P(\bar{X} > 3.35) = P(Z > 1.8) = 1 - P(Z \leq 1.8) = 1 - 0.9641 = 0.0359\)

答案:概率约为 3.59%

📋 总结表

情况 样本均值的分布
总体服从正态分布 \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)精确成立,对任何 n
总体非正态,n 大(≥30) \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)近似成立(CLT)
总体非正态,n 小 不能使用正态近似

📝 核心公式

\(E(\bar{X}) = \mu\)

\(V(\bar{X}) = \frac{\sigma^2}{n}\)

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)(标准误差)

\(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)