抽样分布与中心极限定理
样本均值的抽样分布与中心极限定理(CLT)
🎯 背景:作为随机变量的样本均值
由于从一个样本到另一个样本我们可能得到不同的样本均值,因此样本均值本身就是一个随机变量,并具有自己的分布。
核心问题:样本均值 \(\bar{X}\) 的分布是什么?
答案取决于两件事:
- 原总体是否服从正态分布?
- 样本大小 n 是多少?
📊 总体参数
描述分布或总体的量称为参数:
\(\mu\)
总体均值
(也称为期望)
\(\sigma^2\)
总体方差
\(\sigma\)
总体标准差
\(\sigma = \sqrt{\sigma^2}\)
⭐ 样本均值分布的性质
性质 1:样本均值的期望
\(E(\bar{X}) = \mu_{\bar{X}} = \mu\)
所有可能样本均值的平均值等于总体均值
性质 2:样本均值的方差
\(V(\bar{X}) = \sigma_{\bar{X}}^2 = \frac{\sigma^2}{n}\)
所有样本均值的方差等于总体方差除以 n
(此性质仅对随机抽样成立)
性质 3:标准误差(Standard Error)
\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)
样本均值的标准差称为 "标准误差"
💡 重要洞察:样本大小与样本均值方差之间存在反比关系。
样本越大 → 方差越小 → 均值越集中在 μ 附近
📈 样本大小对方差的影响
结论:随着样本大小的增加,样本均值的分布变得:
- 更窄(方差更小)
- 更集中在总体均值 μ 附近
🔔 情形 1:从正态分布抽样
如果:我们从其变量服从正态分布、均值为 μ、方差为 σ² 的总体中抽样
那么:样本均值也服从正态分布!
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
💡 注意:在这种情况下,样本均值对任何样本大小 n 都服从正态分布,即使 n 很小!
🌟 中心极限定理(Central Limit Theorem - CLT)
定理:
如果总体服从任何分布(不必是正态!),均值为 μ,方差为 σ²,
那么对于足够大的样本,样本均值近似服从正态分布:
\(\bar{X} \xrightarrow{n \to \infty} N\left(\mu, \frac{\sigma^2}{n}\right)\)
🎯 这是统计学中最重要的定理之一!
❓ 何时样本 "足够大"?
经验法则:通常 \(n \geq 30\) 就够了
但这取决于原分布:
- 对称分布:相对较小的 n(15-20)也可能足够
- 不对称分布:需要更大的 n(30+)
- 高度不对称分布:需要非常大的 n(50+)
📊 中心极限定理的图示
🧮 样本均值的 Z 分数计算
\(Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}}\)
💡 注意区别:
- 对于单个观测 X: \(Z = \frac{X - \mu}{\sigma}\)
- 对于样本均值 \(\bar{X}\): \(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)
✏️ 详细例子
题目:新生儿出生时的体重分布的均值为 μ = 3.2 千克,标准差为 σ = 0.5 千克。
抽取 36 个新生儿。样本均值大于 3.35 千克的概率是多少?
步骤 1:识别数据
\(\mu = 3.2, \quad \sigma = 0.5, \quad n = 36\)
步骤 2:计算标准误差
\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} = \frac{0.5}{\sqrt{36}} = \frac{0.5}{6} = 0.0833\)
步骤 3:计算 Z 分数
\(Z = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}} = \frac{3.35 - 3.2}{0.0833} = \frac{0.15}{0.0833} = 1.8\)
步骤 4:计算概率
\(P(\bar{X} > 3.35) = P(Z > 1.8) = 1 - P(Z \leq 1.8) = 1 - 0.9641 = 0.0359\)
答案:概率约为 3.59%
📋 总结表
| 情况 | 样本均值的分布 |
|---|---|
| 总体服从正态分布 | \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)精确成立,对任何 n |
| 总体非正态,n 大(≥30) | \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)近似成立(CLT) |
| 总体非正态,n 小 | 不能使用正态近似 |
📝 核心公式
\(E(\bar{X}) = \mu\)
\(V(\bar{X}) = \frac{\sigma^2}{n}\)
\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)(标准误差)
\(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)