统计关联与名义变量相关性度量 - 卡方、皮、克拉默、λ

统计学

 统计关联与名义变量相关性度量

🔗 什么是统计关联?

两个变量之间存在统计关联,是指当一个变量的值发生变化时,另一个变量的值也随之变化

⚠️ 重要理解:

关联 ≠ 因果关系!

两个变量之间存在关联并不意味着一个变量导致了另一个。

例子:冰淇淋销量与溺水事件数之间有关联 - 但是冰淇淋并不会导致溺水!两者都与第三个变量有关:夏季。

📊 关联类型:

📈

正相关

一个上升 - 另一个也上升

📉

负相关

一个上升 - 另一个下降

无关联

变量之间无依赖关系

📏 测量尺度 - 复习

尺度 描述 例子 关联度量
名义(分类) 没有顺序的类别 颜色、性别、城市 λ、克拉默、皮
序数 有顺序的类别 1-5 评分、教育水平 斯皮尔曼
区间/比率 有意义的数值 身高、分数、收入 Eta、皮尔逊

📊 二维频数表(列联表)

例子:对 200 人进行的调查 - 性别与兴趣

  运动 音乐 阅读 行合计
男性 50 30 20 100
女性 20 40 40 100
列合计 70 70 60 n = 200

💡 符号:

  • \(f_{ij}\) = 单元格中的频数(第 i 行、第 j 列)
  • \(R_i\) = 第 i 行之和
  • \(C_j\) = 第 j 列之和
  • \(n\) = 总观测数
  • r = 行数,c = 列数

χ² 卡方度量 (Chi-Square)

用于检验分类变量之间关联的基本度量:

\(\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}\)

💡 说明:

  • \(f_o\) = 观测频数(来自表格)
  • \(f_e\) = 期望频数(如果不存在关联)

期望频数的计算:

\(f_e = \frac{R_i \times C_j}{n}\)

✏️ 例子 - 计算期望频数:

对于"男性 + 运动"单元格:

\(f_e = \frac{100 \times 70}{200} = 35\)

观测:50,期望:35 → 男性中运动比预期多!

📊 完整的期望频数表:

  运动 音乐 阅读
男性 35 35 30
女性 35 35 30

\(\chi^2 = \frac{(50-35)^2}{35} + \frac{(30-35)^2}{35} + \frac{(20-30)^2}{30} + \frac{(20-35)^2}{35} + \frac{(40-35)^2}{35} + \frac{(40-30)^2}{30}\)

\(= \frac{225}{35} + \frac{25}{35} + \frac{100}{30} + \frac{225}{35} + \frac{25}{35} + \frac{100}{30}\)

\(= 6.43 + 0.71 + 3.33 + 6.43 + 0.71 + 3.33 = 20.94\)

⚠️ χ² 的问题:

该值取决于样本大小 (n) 和表格大小 - 没有归一化!

因此使用归一化度量:皮、克拉默、λ

Φ 皮度量 (Phi) - 2×2 表格

仅适用于2 行 2 列的表格的关联度量:

\(\phi = \sqrt{\frac{\chi^2}{n}}\)

💡 性质:

  • \(0 \leq \phi \leq 1\)
  • \(\phi = 0\) → 无关联
  • \(\phi = 1\) → 完美关联

📐 2×2 表格的直接公式:

  Y=1 Y=0
X=1 a b
X=0 c d

\(\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)

此公式可能得出负值(负相关)

✏️ 例子:性别与吸烟之间的关联

  吸烟 不吸烟 合计
男性 40 (a) 60 (b) 100
女性 20 (c) 80 (d) 100
合计 60 140 200

\(\phi = \frac{40 \times 80 - 60 \times 20}{\sqrt{100 \times 100 \times 60 \times 140}}\)

\(= \frac{3200 - 1200}{\sqrt{84000000}} = \frac{2000}{9165} = 0.218\)

解释:性别与吸烟之间存在弱到中等的正相关

V 克拉默度量 (Cramér's V)

将皮度量推广到任意大小的表格:

\(V = \sqrt{\frac{\chi^2}{n \cdot (k-1)}}\)

其中 k = min(r, c) = 行数与列数中的最小值

💡 性质:

  • \(0 \leq V \leq 1\)
  • \(V = 0\) → 无关联
  • \(V = 1\) → 完美关联
  • 对于 2×2 表格:V = |φ|

✏️ 例子:来自第一个表格(性别与兴趣,2×3)

χ² = 20.94,n = 200

k = min(2, 3) = 2

\(V = \sqrt{\frac{20.94}{200 \times (2-1)}} = \sqrt{\frac{20.94}{200}} = \sqrt{0.1047} = 0.324\)

解释:性别与兴趣之间存在中等关联

📊 关联强度的解释(克拉默):

V 值 关联强度
0 - 0.1 可忽略 / 无关联
0.1 - 0.3
0.3 - 0.5 中等
0.5+

λ λ度量 (Lambda)

λ 测量已知一个变量的值能多大程度改善对另一个变量的预测

\(\lambda = \frac{E_1 - E_2}{E_1}\)

💡 说明:

  • \(E_1\) = 不知道解释变量时的预测错误数
  • \(E_2\) = 知道解释变量时的预测错误数
  • λ = 错误减少的比例

📐 详细公式:

\(\lambda_{Y|X} = \frac{n - \max(C_j) - \sum_i [\max_j(f_{ij}) - \max(R_i)]}{n - \max(C_j)}\)

或用更简单的形式:

\(\lambda_{Y|X} = \frac{\sum_i \max_j(f_{ij}) - \max(C_j)}{n - \max(C_j)}\)

💡 性质:

  • \(0 \leq \lambda \leq 1\)
  • \(\lambda = 0\) → 已知 X 不改善对 Y 的预测
  • \(\lambda = 1\) → 已知 X 能完美预测 Y
  • 不对称: \(\lambda_{Y|X} \neq \lambda_{X|Y}\)

✏️ 例子:根据性别预测兴趣

不知道性别时:

选择最常见的兴趣:运动或音乐(各 70)

\(E_1 = 200 - 70 = 130\) 个错误

知道性别时:

男性:选择运动(50)→ 50 个正确,50 个错误

女性:选择音乐或阅读(40)→ 40 个正确,60 个错误

\(E_2 = 50 + 60 = 110\) 个错误

\(\lambda = \frac{130 - 110}{130} = \frac{20}{130} = 0.154\)

解释:已知性别可将预测错误减少 15.4%

💡 考试技巧

2×2 表格:皮(φ)

一般表格:克拉默(V)

预测:λ(λ)

期望频数:\(\frac{R \times C}{n}\)

📝 第 9 页总结

名义变量:φ(2×2)、V(一般)、λ(预测)

全部范围 [0,1],越高 = 关联越强