抽样分布与中心极限定理
二项分布的正态近似
🎯 为什么需要正态近似?
当 n 很大时,二项分布的计算变得繁琐:
- 计算 \(\binom{100}{47}\) 需要处理巨大的数字
- 对大量值求和耗时
- 二项分布表有局限
解决方法:当 n 足够大时,可以用正态分布来近似二项分布!
📚 回顾:二项分布
记号:\(X \sim B(n, p)\)
含义:X = n 次试验中成功的次数,每次成功的概率为 p
\(E(X) = np\)
期望
\(V(X) = np(1-p)\)
方差
\(\sigma = \sqrt{np(1-p)}\)
标准差
⚠️ 正态近似的条件
当满足以下条件时,可用正态分布近似二项分布:
\(np \geq 5\)
\(n(1-p) \geq 5\)
💡 说明:这两个条件确保分布不会过于不对称。
⭐ 正态近似公式
如果 \(X \sim B(n, p)\) 并且满足条件:
\(X \approx N(np, np(1-p))\)
Z 分数计算:
\(Z = \frac{X - np}{\sqrt{np(1-p)}}\)
🔧 连续性修正(Continuity Correction)
问题:二项分布是离散的,正态分布是连续的
解决方法:加上或减去 0.5
| 二项分布 | 正态近似 |
|---|---|
| \(P(X = k)\) | \(P(k - 0.5 \leq X \leq k + 0.5)\) |
| \(P(X \leq k)\) | \(P(X \leq k + 0.5)\) |
| \(P(X < k)\) | \(P(X \leq k - 0.5)\) |
| \(P(X \geq k)\) | \(P(X \geq k - 0.5)\) |
| \(P(X > k)\) | \(P(X \geq k + 0.5)\) |
| \(P(a \leq X \leq b)\) | \(P(a - 0.5 \leq X \leq b + 0.5)\) |
💡 规则:"扩展"区间以包含整数值
✏️ 例 1:P(X ≤ k)
题目:抛掷一枚公平硬币 100 次。最多得到 45 次 "正面" 的概率是多少?
定义:\(X \sim B(100, 0.5)\)
验证条件:
\(np = 50 \geq 5\) ✓ \(n(1-p) = 50 \geq 5\) ✓
参数:\(\mu = 50, \quad \sigma = \sqrt{25} = 5\)
修正:\(P(X \leq 45) \approx P(X \leq 45.5)\)
Z 计算:\(Z = \frac{45.5 - 50}{5} = -0.9\)
答案:P(Z ≤ -0.9) = 0.1841 = 18.41%
✏️ 例 2:P(a ≤ X ≤ b)
题目:有 30% 的人支持某位候选人。访问了 200 人。
恰好有 55 到 70 人(含)支持的概率是多少?
定义:\(X \sim B(200, 0.3)\)
条件:\(np = 60 \geq 5\) ✓ \(n(1-p) = 140 \geq 5\) ✓
参数:\(\mu = 60, \quad \sigma = \sqrt{42} \approx 6.48\)
修正:\(P(55 \leq X \leq 70) \approx P(54.5 \leq X \leq 70.5)\)
Z 计算:
\(Z_1 = \frac{54.5 - 60}{6.48} = -0.85\)
\(Z_2 = \frac{70.5 - 60}{6.48} = 1.62\)
答案:P(-0.85 ≤ Z ≤ 1.62) = 0.9474 - 0.1977 = 0.7497 ≈ 75%
📊 样本比例的正态近似
样本比例:\(\hat{p} = \frac{X}{n}\)(其中 X = 成功次数)
样本比例的分布:
\(\hat{p} \approx N\left(p, \frac{p(1-p)}{n}\right)\)
重要公式:
- 期望:\(E(\hat{p}) = p\)
- 方差:\(V(\hat{p}) = \frac{p(1-p)}{n}\)
- 标准误差:\(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\)
比例的 Z 分数:
\(Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\)
📋 公式总结
| 统计量 | 期望 | 方差 | 标准误差 |
|---|---|---|---|
| \(X \sim B(n,p)\) | \(np\) | \(np(1-p)\) | \(\sqrt{np(1-p)}\) |
| \(\hat{p} = \frac{X}{n}\) | \(p\) | \(\frac{p(1-p)}{n}\) | \(\sqrt{\frac{p(1-p)}{n}}\) |
| \(\bar{X}\)(样本均值) | \(\mu\) | \(\frac{\sigma^2}{n}\) | \(\frac{\sigma}{\sqrt{n}}\) |
📝 总结
近似条件:\(np \geq 5\) 且 \(n(1-p) \geq 5\)
近似:\(X \sim B(n,p) \approx N(np, np(1-p))\)
连续性修正:±0.5,依不等式类型而定