二项分布的正态近似 - 连续性修正

抽样分布与中心极限定理

二项分布的正态近似

🎯 为什么需要正态近似?

当 n 很大时,二项分布的计算变得繁琐:

  • 计算 \(\binom{100}{47}\) 需要处理巨大的数字
  • 对大量值求和耗时
  • 二项分布表有局限

解决方法:当 n 足够大时,可以用正态分布来近似二项分布!

📚 回顾:二项分布

记号:\(X \sim B(n, p)\)

含义:X = n 次试验中成功的次数,每次成功的概率为 p

\(E(X) = np\)

期望

\(V(X) = np(1-p)\)

方差

\(\sigma = \sqrt{np(1-p)}\)

标准差

⚠️ 正态近似的条件

当满足以下条件时,可用正态分布近似二项分布:

\(np \geq 5\)

\(n(1-p) \geq 5\)

💡 说明:这两个条件确保分布不会过于不对称。

⭐ 正态近似公式

如果 \(X \sim B(n, p)\) 并且满足条件:

\(X \approx N(np, np(1-p))\)

Z 分数计算:

\(Z = \frac{X - np}{\sqrt{np(1-p)}}\)

🔧 连续性修正(Continuity Correction)

问题:二项分布是离散的,正态分布是连续的

解决方法:加上或减去 0.5

二项分布 正态近似
\(P(X = k)\) \(P(k - 0.5 \leq X \leq k + 0.5)\)
\(P(X \leq k)\) \(P(X \leq k + 0.5)\)
\(P(X < k)\) \(P(X \leq k - 0.5)\)
\(P(X \geq k)\) \(P(X \geq k - 0.5)\)
\(P(X > k)\) \(P(X \geq k + 0.5)\)
\(P(a \leq X \leq b)\) \(P(a - 0.5 \leq X \leq b + 0.5)\)

💡 规则:"扩展"区间以包含整数值

✏️ 例 1:P(X ≤ k)

题目:抛掷一枚公平硬币 100 次。最多得到 45 次 "正面" 的概率是多少?

定义:\(X \sim B(100, 0.5)\)

验证条件:

\(np = 50 \geq 5\) ✓    \(n(1-p) = 50 \geq 5\)

参数:\(\mu = 50, \quad \sigma = \sqrt{25} = 5\)

修正:\(P(X \leq 45) \approx P(X \leq 45.5)\)

Z 计算:\(Z = \frac{45.5 - 50}{5} = -0.9\)

答案:P(Z ≤ -0.9) = 0.1841 = 18.41%

✏️ 例 2:P(a ≤ X ≤ b)

题目:有 30% 的人支持某位候选人。访问了 200 人。

恰好有 55 到 70 人(含)支持的概率是多少?

定义:\(X \sim B(200, 0.3)\)

条件:\(np = 60 \geq 5\) ✓   \(n(1-p) = 140 \geq 5\)

参数:\(\mu = 60, \quad \sigma = \sqrt{42} \approx 6.48\)

修正:\(P(55 \leq X \leq 70) \approx P(54.5 \leq X \leq 70.5)\)

Z 计算:

\(Z_1 = \frac{54.5 - 60}{6.48} = -0.85\)

\(Z_2 = \frac{70.5 - 60}{6.48} = 1.62\)

答案:P(-0.85 ≤ Z ≤ 1.62) = 0.9474 - 0.1977 = 0.7497 ≈ 75%

📊 样本比例的正态近似

样本比例:\(\hat{p} = \frac{X}{n}\)(其中 X = 成功次数)

样本比例的分布:

\(\hat{p} \approx N\left(p, \frac{p(1-p)}{n}\right)\)

重要公式:

  • 期望:\(E(\hat{p}) = p\)
  • 方差:\(V(\hat{p}) = \frac{p(1-p)}{n}\)
  • 标准误差:\(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\)

比例的 Z 分数:

\(Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\)

📋 公式总结

统计量 期望 方差 标准误差
\(X \sim B(n,p)\) \(np\) \(np(1-p)\) \(\sqrt{np(1-p)}\)
\(\hat{p} = \frac{X}{n}\) \(p\) \(\frac{p(1-p)}{n}\) \(\sqrt{\frac{p(1-p)}{n}}\)
\(\bar{X}\)(样本均值) \(\mu\) \(\frac{\sigma^2}{n}\) \(\frac{\sigma}{\sqrt{n}}\)

📝 总结

近似条件:\(np \geq 5\)\(n(1-p) \geq 5\)

近似:\(X \sim B(n,p) \approx N(np, np(1-p))\)

连续性修正:±0.5,依不等式类型而定