统计学
统计关联与名义变量相关性度量
🔗 什么是统计关联?
两个变量之间存在统计关联,是指当一个变量的值发生变化时,另一个变量的值也随之变化。
⚠️ 重要理解:
关联 ≠ 因果关系!
两个变量之间存在关联并不意味着一个变量导致了另一个。
例子:冰淇淋销量与溺水事件数之间有关联 - 但是冰淇淋并不会导致溺水!两者都与第三个变量有关:夏季。
📊 关联类型:
📈
正相关
一个上升 - 另一个也上升
📉
负相关
一个上升 - 另一个下降
➖
无关联
变量之间无依赖关系
📏 测量尺度 - 复习
| 尺度 | 描述 | 例子 | 关联度量 |
|---|---|---|---|
| 名义(分类) | 没有顺序的类别 | 颜色、性别、城市 | λ、克拉默、皮 |
| 序数 | 有顺序的类别 | 1-5 评分、教育水平 | 斯皮尔曼 |
| 区间/比率 | 有意义的数值 | 身高、分数、收入 | Eta、皮尔逊 |
📊 二维频数表(列联表)
例子:对 200 人进行的调查 - 性别与兴趣
| 运动 | 音乐 | 阅读 | 行合计 | |
|---|---|---|---|---|
| 男性 | 50 | 30 | 20 | 100 |
| 女性 | 20 | 40 | 40 | 100 |
| 列合计 | 70 | 70 | 60 | n = 200 |
💡 符号:
- \(f_{ij}\) = 单元格中的频数(第 i 行、第 j 列)
- \(R_i\) = 第 i 行之和
- \(C_j\) = 第 j 列之和
- \(n\) = 总观测数
- r = 行数,c = 列数
χ² 卡方度量 (Chi-Square)
用于检验分类变量之间关联的基本度量:
\(\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}\)
💡 说明:
- \(f_o\) = 观测频数(来自表格)
- \(f_e\) = 期望频数(如果不存在关联)
期望频数的计算:
\(f_e = \frac{R_i \times C_j}{n}\)
✏️ 例子 - 计算期望频数:
对于"男性 + 运动"单元格:
\(f_e = \frac{100 \times 70}{200} = 35\)
观测:50,期望:35 → 男性中运动比预期多!
📊 完整的期望频数表:
| 运动 | 音乐 | 阅读 | |
|---|---|---|---|
| 男性 | 35 | 35 | 30 |
| 女性 | 35 | 35 | 30 |
\(\chi^2 = \frac{(50-35)^2}{35} + \frac{(30-35)^2}{35} + \frac{(20-30)^2}{30} + \frac{(20-35)^2}{35} + \frac{(40-35)^2}{35} + \frac{(40-30)^2}{30}\)
\(= \frac{225}{35} + \frac{25}{35} + \frac{100}{30} + \frac{225}{35} + \frac{25}{35} + \frac{100}{30}\)
\(= 6.43 + 0.71 + 3.33 + 6.43 + 0.71 + 3.33 = 20.94\)
⚠️ χ² 的问题:
该值取决于样本大小 (n) 和表格大小 - 没有归一化!
因此使用归一化度量:皮、克拉默、λ
Φ 皮度量 (Phi) - 2×2 表格
仅适用于2 行 2 列的表格的关联度量:
\(\phi = \sqrt{\frac{\chi^2}{n}}\)
💡 性质:
- \(0 \leq \phi \leq 1\)
- \(\phi = 0\) → 无关联
- \(\phi = 1\) → 完美关联
📐 2×2 表格的直接公式:
| Y=1 | Y=0 | |
|---|---|---|
| X=1 | a | b |
| X=0 | c | d |
\(\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)
此公式可能得出负值(负相关)
✏️ 例子:性别与吸烟之间的关联
| 吸烟 | 不吸烟 | 合计 | |
|---|---|---|---|
| 男性 | 40 (a) | 60 (b) | 100 |
| 女性 | 20 (c) | 80 (d) | 100 |
| 合计 | 60 | 140 | 200 |
\(\phi = \frac{40 \times 80 - 60 \times 20}{\sqrt{100 \times 100 \times 60 \times 140}}\)
\(= \frac{3200 - 1200}{\sqrt{84000000}} = \frac{2000}{9165} = 0.218\)
解释:性别与吸烟之间存在弱到中等的正相关
V 克拉默度量 (Cramér's V)
将皮度量推广到任意大小的表格:
\(V = \sqrt{\frac{\chi^2}{n \cdot (k-1)}}\)
其中 k = min(r, c) = 行数与列数中的最小值
💡 性质:
- \(0 \leq V \leq 1\)
- \(V = 0\) → 无关联
- \(V = 1\) → 完美关联
- 对于 2×2 表格:V = |φ|
✏️ 例子:来自第一个表格(性别与兴趣,2×3)
χ² = 20.94,n = 200
k = min(2, 3) = 2
\(V = \sqrt{\frac{20.94}{200 \times (2-1)}} = \sqrt{\frac{20.94}{200}} = \sqrt{0.1047} = 0.324\)
解释:性别与兴趣之间存在中等关联
📊 关联强度的解释(克拉默):
| V 值 | 关联强度 |
|---|---|
| 0 - 0.1 | 可忽略 / 无关联 |
| 0.1 - 0.3 | 弱 |
| 0.3 - 0.5 | 中等 |
| 0.5+ | 强 |
λ λ度量 (Lambda)
λ 测量已知一个变量的值能多大程度改善对另一个变量的预测。
\(\lambda = \frac{E_1 - E_2}{E_1}\)
💡 说明:
- \(E_1\) = 不知道解释变量时的预测错误数
- \(E_2\) = 知道解释变量时的预测错误数
- λ = 错误减少的比例
📐 详细公式:
\(\lambda_{Y|X} = \frac{n - \max(C_j) - \sum_i [\max_j(f_{ij}) - \max(R_i)]}{n - \max(C_j)}\)
或用更简单的形式:
\(\lambda_{Y|X} = \frac{\sum_i \max_j(f_{ij}) - \max(C_j)}{n - \max(C_j)}\)
💡 性质:
- \(0 \leq \lambda \leq 1\)
- \(\lambda = 0\) → 已知 X 不改善对 Y 的预测
- \(\lambda = 1\) → 已知 X 能完美预测 Y
- 不对称: \(\lambda_{Y|X} \neq \lambda_{X|Y}\)
✏️ 例子:根据性别预测兴趣
不知道性别时:
选择最常见的兴趣:运动或音乐(各 70)
\(E_1 = 200 - 70 = 130\) 个错误
知道性别时:
男性:选择运动(50)→ 50 个正确,50 个错误
女性:选择音乐或阅读(40)→ 40 个正确,60 个错误
\(E_2 = 50 + 60 = 110\) 个错误
\(\lambda = \frac{130 - 110}{130} = \frac{20}{130} = 0.154\)
解释:已知性别可将预测错误减少 15.4%
💡 考试技巧
2×2 表格:皮(φ)
一般表格:克拉默(V)
预测:λ(λ)
期望频数:\(\frac{R \times C}{n}\)
📝 第 9 页总结
名义变量:φ(2×2)、V(一般)、λ(预测)
全部范围 [0,1],越高 = 关联越强