抽样分布与中心极限定理
基本概念 — 总体、样本、参数与统计量
🎯 我们为什么需要它?
在现实世界中,我们很少能接触到整个总体。例如:
- 不可能询问国家中所有选民投票给谁
- 不可能检验工厂里所有产品(这会毁掉它们)
- 不可能测量海洋中所有的鱼
解决方法:取一个样本(子集),并从中推断整个总体!
📊 观测(数值)
定义:变量测量的结果 — 变量所取的值。
记号:变量 X 的观测记为 \(X_i\),其中下标 i 用于标识该观测。
✏️ 例子:\(X_i\) = 第 i 个家庭中的孩子数
\(X_7 = 3\) → 第 7 个家庭有 3 个孩子
🔢 定量变量的数值度量
| 记号 | 含义 |
|---|---|
| \(n\) | 观测的数量(样本大小) |
| \(X_1, X_2, ..., X_n\) | 按到达顺序的 n 个观测 |
| \(\sum_{i=1}^{n} X_i\) | 观测的总和 |
| \(\sum_{i=1}^{n} X_i^2\) | 观测平方的总和 |
🌍 总体(Population)
定义:满足某个标准的所有个体的集合。
✏️ 例子:
- 国家中所有高中生
- 年龄超过 35 岁的女性
- 至少有 5 个孩子的家庭
- 某工厂生产的所有产品
💡 注意:总体是根据我们想要回答的问题而定义的!
🎲 样本(Sample)
定义:从总体中选出的子集(部分集合),依据其数据进行统计研究,以便对总体做出推断。
记号:变量 X 的大小为 n 的样本记为:\(X_1, X_2, X_3, ..., X_n\)
💡 重要:总体和样本是相对的概念 — 同一组可以是总体,也可以是样本!
⚖️ 参数 vs. 统计量 — 关键区别!
参数(Parameter)
定义:总体的特征。
特性:
- 值是固定且离散的
- 不依赖于样本
- 描述总体的特征
- 通常我们不知道它
记号:希腊字母(θ, μ, σ, P)
统计量(Statistic)
定义:样本的特征。
特性:
- 值因样本而异
- 依赖于所选样本
- 随机变量(有自己的分布)
- 我们知道它(由样本计算得出)
记号:带帽子的拉丁字母 \((\hat{\theta}, \bar{X}, S, \hat{P})\)
📋 对比表:参数 vs. 统计量
| 度量 | 参数(总体) | 统计量(样本) |
|---|---|---|
| 平均值 | \(\mu = E(X)\) (期望) |
\(\bar{X} = \frac{\sum X_i}{n}\) (样本均值) |
| 方差 | \(\sigma^2 = V(X_i)\) (随机变量的方差) |
\(S^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}\) (样本方差) |
| 标准差 | \(\sigma\) | \(S\) |
| 比例 | \(P\) (总体中的比例) |
\(\hat{P}\) (样本中的比例) |
💡 为什么统计量是随机变量?
参数是固定值 — 它描述整个总体,不会改变。
统计量依赖于所选样本。每次抽取新样本,会得到不同的值!
✏️ 例子:
假设总体中身高的平均值是 μ = 170 厘米(固定参数)。
如果我们抽取 30 个人:
- 第一个样本:\(\bar{X}_1 = 168.5\) 厘米
- 第二个样本:\(\bar{X}_2 = 171.2\) 厘米
- 第三个样本:\(\bar{X}_3 = 169.8\) 厘米
统计量因样本而异 → 它们有分布!
📈 抽样分布(Sampling Distribution)
定义:某个统计量在所有大小为 n 的可能样本上的分布。
💡 解释:
抽样分布是一种工具,使我们能够从样本度量(统计量)中学习总体的特征(参数)。
在统计推断过程中:
我们希望通过样本中计算的统计量来了解总体或随机变量的参数。
📝 总结
总体 = 所有个体 | 样本 = 子集
参数 = 总体的特征(固定,未知)
统计量 = 样本的特征(随机变量,已知)
抽样分布 = 统计量在所有样本上的分布