抽样分布与中心极限定理 - 总体、样本、参数与统计量

抽样分布与中心极限定理

基本概念 — 总体、样本、参数与统计量

🎯 我们为什么需要它?

在现实世界中,我们很少能接触到整个总体。例如:

不可能询问国家中所有选民投票给谁
不可能检验工厂里所有产品(这会毁掉它们)
不可能测量海洋中所有的鱼

解决方法:取一个样本(子集),并从中推断整个总体!

📊 观测(数值)

定义:变量测量的结果 — 变量所取的值。

记号:变量 X 的观测记为 \(X_i\),其中下标 i 用于标识该观测。

✏️ 例子:\(X_i\) = 第 i 个家庭中的孩子数

\(X_7 = 3\) → 第 7 个家庭有 3 个孩子

🔢 定量变量的数值度量

记号	含义
\(n\)	观测的数量(样本大小)
\(X_1, X_2, ..., X_n\)	按到达顺序的 n 个观测
\(\sum_{i=1}^{n} X_i\)	观测的总和
\(\sum_{i=1}^{n} X_i^2\)	观测平方的总和

🌍 总体(Population)

定义:满足某个标准的所有个体的集合。

✏️ 例子:

国家中所有高中生
年龄超过 35 岁的女性
至少有 5 个孩子的家庭
某工厂生产的所有产品

💡 注意:总体是根据我们想要回答的问题而定义的!

🎲 样本(Sample)

定义:从总体中选出的子集(部分集合),依据其数据进行统计研究,以便对总体做出推断。

记号:变量 X 的大小为 n 的样本记为:\(X_1, X_2, X_3, ..., X_n\)

💡 重要:总体和样本是相对的概念 — 同一组可以是总体,也可以是样本!

⚖️ 参数 vs. 统计量 — 关键区别!

参数(Parameter)

定义:总体的特征。

特性:

值是固定且离散的
不依赖于样本
描述总体的特征
通常我们不知道它

记号:希腊字母(θ, μ, σ, P)

统计量(Statistic)

定义:样本的特征。

特性:

值因样本而异
依赖于所选样本
随机变量(有自己的分布)
我们知道它(由样本计算得出)

记号:带帽子的拉丁字母 \((\hat{\theta}, \bar{X}, S, \hat{P})\)

📋 对比表:参数 vs. 统计量

度量	参数(总体)	统计量(样本)
平均值	\(\mu = E(X)\) (期望)	\(\bar{X} = \frac{\sum X_i}{n}\) (样本均值)
方差	\(\sigma^2 = V(X_i)\) (随机变量的方差)	\(S^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}\) (样本方差)
标准差	\(\sigma\)	\(S\)
比例	\(P\) (总体中的比例)	\(\hat{P}\) (样本中的比例)

💡 为什么统计量是随机变量?

参数是固定值 — 它描述整个总体,不会改变。

统计量依赖于所选样本。每次抽取新样本,会得到不同的值!

✏️ 例子:

假设总体中身高的平均值是 μ = 170 厘米(固定参数)。

如果我们抽取 30 个人:

第一个样本:\(\bar{X}_1 = 168.5\) 厘米
第二个样本:\(\bar{X}_2 = 171.2\) 厘米
第三个样本:\(\bar{X}_3 = 169.8\) 厘米

统计量因样本而异 → 它们有分布!

📈 抽样分布(Sampling Distribution)

定义:某个统计量在所有大小为 n 的可能样本上的分布。

💡 解释:

抽样分布是一种工具,使我们能够从样本度量(统计量)中学习总体的特征(参数)。

在统计推断过程中:

我们希望通过样本中计算的统计量来了解总体或随机变量的参数。

📝 总结

总体 = 所有个体 | 样本 = 子集

参数 = 总体的特征(固定,未知)

统计量 = 样本的特征(随机变量,已知)

抽样分布 = 统计量在所有样本上的分布