抽样分布与中心极限定理 - 总体、样本、参数与统计量

抽样分布与中心极限定理

基本概念 — 总体、样本、参数与统计量

🎯 我们为什么需要它?

在现实世界中,我们很少能接触到整个总体。例如:

  • 不可能询问国家中所有选民投票给谁
  • 不可能检验工厂里所有产品(这会毁掉它们)
  • 不可能测量海洋中所有的鱼

解决方法:取一个样本(子集),并从中推断整个总体!

📊 观测(数值)

定义:变量测量的结果 — 变量所取的值。

记号:变量 X 的观测记为 \(X_i\),其中下标 i 用于标识该观测。

✏️ 例子:\(X_i\) = 第 i 个家庭中的孩子数

\(X_7 = 3\) → 第 7 个家庭有 3 个孩子

🔢 定量变量的数值度量

记号 含义
\(n\) 观测的数量(样本大小)
\(X_1, X_2, ..., X_n\) 按到达顺序的 n 个观测
\(\sum_{i=1}^{n} X_i\) 观测的总和
\(\sum_{i=1}^{n} X_i^2\) 观测平方的总和

🌍 总体(Population)

定义:满足某个标准的所有个体的集合。

✏️ 例子:

  • 国家中所有高中生
  • 年龄超过 35 岁的女性
  • 至少有 5 个孩子的家庭
  • 某工厂生产的所有产品

💡 注意:总体是根据我们想要回答的问题而定义的!

🎲 样本(Sample)

定义:从总体中选出的子集(部分集合),依据其数据进行统计研究,以便对总体做出推断。

记号:变量 X 的大小为 n 的样本记为:\(X_1, X_2, X_3, ..., X_n\)

总体 样本

💡 重要:总体样本是相对的概念 — 同一组可以是总体,也可以是样本!

⚖️ 参数 vs. 统计量 — 关键区别!

参数(Parameter)

定义:总体的特征。

特性:

  • 值是固定且离散
  • 不依赖于样本
  • 描述总体的特征
  • 通常我们不知道

记号:希腊字母(θ, μ, σ, P)

统计量(Statistic)

定义:样本的特征。

特性:

  • 因样本而异
  • 依赖于所选样本
  • 随机变量(有自己的分布)
  • 我们知道它(由样本计算得出)

记号:带帽子的拉丁字母 \((\hat{\theta}, \bar{X}, S, \hat{P})\)

📋 对比表:参数 vs. 统计量

度量 参数(总体) 统计量(样本)
平均值 \(\mu = E(X)\)
(期望)
\(\bar{X} = \frac{\sum X_i}{n}\)
(样本均值)
方差 \(\sigma^2 = V(X_i)\)
(随机变量的方差)
\(S^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}\)
(样本方差)
标准差 \(\sigma\) \(S\)
比例 \(P\)
(总体中的比例)
\(\hat{P}\)
(样本中的比例)

💡 为什么统计量是随机变量?

参数是固定值 — 它描述整个总体,不会改变。

统计量依赖于所选样本。每次抽取新样本,会得到不同的值!

✏️ 例子:

假设总体中身高的平均值是 μ = 170 厘米(固定参数)。

如果我们抽取 30 个人:

  • 第一个样本:\(\bar{X}_1 = 168.5\) 厘米
  • 第二个样本:\(\bar{X}_2 = 171.2\) 厘米
  • 第三个样本:\(\bar{X}_3 = 169.8\) 厘米

统计量因样本而异 → 它们有分布!

📈 抽样分布(Sampling Distribution)

定义:某个统计量在所有大小为 n 的可能样本上的分布。

💡 解释:

抽样分布是一种工具,使我们能够从样本度量(统计量)中学习总体的特征(参数)。

在统计推断过程中:

我们希望通过样本中计算的统计量来了解总体或随机变量的参数。

📝 总结

总体 = 所有个体 | 样本 = 子集

参数 = 总体的特征(固定,未知)

统计量 = 样本的特征(随机变量,已知)

抽样分布 = 统计量在所有样本上的分布