统计学——参数估计
我们几乎不可能对整个总体进行测量,因此需要从样本中估计总体参数。但并非所有估计量都同样优良:我们希望估计量无偏且方差尽可能小。本页将学习什么是无偏估计量、什么是有效性,计算均方误差(MSE)和均值标准误,并了解样本量如何影响精度。
背景与基本定义
参数是描述总体的数值(如均值 \(\mu\) 或方差 \(\sigma^2\)),而估计量(Estimator)是从样本计算出来用于估计参数的公式(如样本均值 \(\bar{x}\))。得到的具体数值称为点估计值。
优良估计量的特性:
- 无偏性(Unbiased):在大量样本上平均而言,估计量能命中参数,即 \( E(\hat{\theta}) = \theta \)。偏差为 \( \text{Bias} = E(\hat{\theta}) - \theta \)。
- 有效性(Efficiency):在两个无偏估计量中,更有效的是方差更小的那个——它在参数周围"散布"得更少。
均方误差(MSE)度量估计量的综合质量:
\[ \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \big(\text{Bias}(\hat{\theta})\big)^2 \]对于无偏估计量,偏差为零,因此 \( \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) \)。
样本均值是 \(\mu\) 的最佳点估计量,且是无偏的:\( E(\bar{x}) = \mu \)。其分散程度用均值标准误衡量:
\[ \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]总体方差的无偏估计量通过除以 \((n-1)\) 的样本方差得到:
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]解题步骤
- 第一步——确认要估计的参数(\(\mu\)、\(\sigma^2\)、\(p\))以及相应的估计量。
- 第二步——检验无偏性:计算 \( E(\hat{\theta}) \) 并与参数比较;相等 \(\Rightarrow\) 无偏。
- 第三步——比较无偏估计量的有效性:选择方差更小的那个。
- 第四步——计算MSE时使用 \( \text{Var} + \text{Bias}^2 \);若无偏,则 \( \text{MSE} = \text{Var} \)。
- 第五步——均值标准误:将 \(\sigma\) 除以 \(\sqrt{n}\):\( \text{SE} = \frac{\sigma}{\sqrt{n}} \)。
- 第六步——求所需样本量时,从标准误方程中解出 \(n\):\( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \)。
例题解析
例题 1: 均值的标准误
题目: 已知总体标准差 \( \sigma = 20 \),从中抽取大小为 \( n = 25 \) 的样本。样本均值的标准误是多少?
解答:
- 使用公式 \( \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \)。
- 代入:\( \text{SE} = \frac{20}{\sqrt{25}} = \frac{20}{5} \)。
- 计算:\( \frac{20}{5} = 4 \)。
- 注意:样本越大,标准误越小——因为分母中的 \(\sqrt{n}\) 增大。
答案: 标准误为 \( 4 \)。
例题 2: 所需样本量
题目: 希望均值的标准误不超过 \( 2 \),总体标准差为 \( \sigma = 16 \)。需要多大的样本?
解答:
- 从公式 \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) 解出 \(n\)。
- 解出根号:\( \sqrt{n} = \frac{\sigma}{\text{SE}} = \frac{16}{2} = 8 \)。
- 两边平方:\( n = 8^2 = 64 \)。
- 验证:\( \frac{16}{\sqrt{64}} = \frac{16}{8} = 2 \)——恰好满足要求。
答案: 所需样本量为 \( n = 64 \)。
例题 3: 从观测值计算样本方差
题目: 一个包含四个观测值的样本:\( 4, 7, 9, 12 \)。计算无偏样本方差 \( s^2 \)。
解答:
- 首先计算均值:\( \bar{x} = \frac{4+7+9+12}{4} = \frac{32}{4} = 8 \)。
- 与均值的偏差:\( -4, -1, 1, 4 \);各偏差的平方:\( 16, 1, 1, 16 \)。
- 偏差平方和:\( 16 + 1 + 1 + 16 = 34 \)。
- 除以 \( (n-1) = 3 \):\( s^2 = \frac{34}{3} \approx 11.33 \)。
答案: \( s^2 = \frac{34}{3} \approx 11.33 \)。
例题 4: 无偏估计量的MSE
题目: 样本均值 \( \bar{x} \) 是 \(\mu\) 的无偏估计量。已知 \( \sigma = 12 \),\( n = 9 \)。\( \text{MSE}(\bar{x}) \) 是多少?
解答:
- 由于 \( \bar{x} \) 是无偏的,偏差为零,因此 \( \text{MSE}(\bar{x}) = \text{Var}(\bar{x}) \)。
- 样本均值的方差为 \( \text{Var}(\bar{x}) = \frac{\sigma^2}{n} \)。
- 代入:\( \frac{12^2}{9} = \frac{144}{9} \)。
- 计算:\( \frac{144}{9} = 16 \)(注意这也等于 \( \text{SE}^2 = 4^2 \))。
答案: \( \text{MSE}(\bar{x}) = 16 \)。
例题 5: 选择有效估计量
题目: \(\theta\) 的两个无偏估计量:估计量 \(A\) 的方差 \( \text{Var}(A) = 9 \),估计量 \(B\) 的方差 \( \text{Var}(B) = 4 \)。哪个估计量更优?
解答:
- 两个估计量都是无偏的,即 \( E(A) = E(B) = \theta \)——偏差无差别。
- 在这种情况下,判断标准是有效性:选择方差更小的估计量。
- 由于 \( \text{Var}(B) = 4 \lt 9 = \text{Var}(A) \),估计量 \(B\) 更有效。
- 对于无偏估计量,MSE等于方差,因此 \(B\) 的MSE也更小。
答案: 估计量 \(B\) 更优(更有效,方差更小)。
常见错误
✗ 常见错误: 计算样本方差时除以 \(n\) 而非 \((n-1)\)。
✓ 正确做法: 除以 \(n\) 会产生向下偏倚(偏小)的估计量。总体方差的无偏估计量需要除以 \((n-1)\):\( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \)。
✗ 常见错误: 混淆样本标准差 \(s\) 与均值标准误 \(\text{SE}\)。
✓ 正确做法: \(s\) 描述单个观测值的分散程度,而 \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) 描述均值在不同样本间的分散程度。SE始终更小,且随 \(n\) 增大而减小。
✗ 常见错误: 忘记对 \(n\) 取根号,计算 \( \text{SE} = \frac{\sigma}{n} \)。
✓ 正确做法: 分母是 \(\sqrt{n}\) 而不是 \(n\)。因此将样本量扩大4倍,标准误只减小2倍,因为 \( \sqrt{4} = 2 \)。
练习建议
- 提示——要将标准误减半(缩小为原来的1/2),需要将样本量扩大4倍,因为 \(n\) 在根号下。
- 提示——优良估计量 = 无偏 + 有效。先确认无偏性,再比较方差选出更有效的。
- 提示——记住MSE:\( \text{MSE} = \text{Var} + \text{Bias}^2 \)。若估计量无偏,MSE就等于方差。
- 提示——计算所需样本量时,直接使用 \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \),并向上取整为最近的整数。
总结与关键公式
- 无偏估计量: \( E(\hat{\theta}) = \theta \)。
- 有效性:在无偏估计量中,最有效的是方差最小的。
- MSE \( = \text{Var}(\hat{\theta}) + \text{Bias}^2 \);无偏时 \( \text{MSE} = \text{Var} \)。
- 均值标准误: \( \text{SE} = \frac{\sigma}{\sqrt{n}} \)。
- 样本量: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \)。
- 样本方差: \( s^2 = \frac{\sum (x_i-\bar{x})^2}{n-1} \)。