统计关联与名义变量相关性度量 - 卡方、皮、克拉默、λ

统计学

统计关联与名义变量相关性度量

🔗 什么是统计关联?

两个变量之间存在统计关联,是指当一个变量的值发生变化时,另一个变量的值也随之变化。

⚠️ 重要理解:

关联 ≠ 因果关系!

两个变量之间存在关联并不意味着一个变量导致了另一个。

例子:冰淇淋销量与溺水事件数之间有关联 - 但是冰淇淋并不会导致溺水!两者都与第三个变量有关:夏季。

📊 关联类型:

📈

正相关

一个上升 - 另一个也上升

📉

负相关

一个上升 - 另一个下降

➖

无关联

变量之间无依赖关系

📏 测量尺度 - 复习

尺度	描述	例子	关联度量
名义(分类)	没有顺序的类别	颜色、性别、城市	λ、克拉默、皮
序数	有顺序的类别	1-5 评分、教育水平	斯皮尔曼
区间/比率	有意义的数值	身高、分数、收入	Eta、皮尔逊

📊 二维频数表(列联表)

例子:对 200 人进行的调查 - 性别与兴趣

	运动	音乐	阅读	行合计
男性	50	30	20	100
女性	20	40	40	100
列合计	70	70	60	n = 200

💡 符号:

\(f_{ij}\) = 单元格中的频数(第 i 行、第 j 列)
\(R_i\) = 第 i 行之和
\(C_j\) = 第 j 列之和
\(n\) = 总观测数
r = 行数,c = 列数

χ² 卡方度量 (Chi-Square)

用于检验分类变量之间关联的基本度量:

\(\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}\)

💡 说明:

\(f_o\) = 观测频数(来自表格)
\(f_e\) = 期望频数(如果不存在关联)

期望频数的计算:

\(f_e = \frac{R_i \times C_j}{n}\)

✏️ 例子 - 计算期望频数:

对于"男性 + 运动"单元格:

\(f_e = \frac{100 \times 70}{200} = 35\)

观测:50,期望:35 → 男性中运动比预期多!

📊 完整的期望频数表:

	运动	音乐	阅读
男性	35	35	30
女性	35	35	30

\(\chi^2 = \frac{(50-35)^2}{35} + \frac{(30-35)^2}{35} + \frac{(20-30)^2}{30} + \frac{(20-35)^2}{35} + \frac{(40-35)^2}{35} + \frac{(40-30)^2}{30}\)

\(= \frac{225}{35} + \frac{25}{35} + \frac{100}{30} + \frac{225}{35} + \frac{25}{35} + \frac{100}{30}\)

\(= 6.43 + 0.71 + 3.33 + 6.43 + 0.71 + 3.33 = 20.94\)

⚠️ χ² 的问题:

该值取决于样本大小 (n) 和表格大小 - 没有归一化!

因此使用归一化度量:皮、克拉默、λ

Φ 皮度量 (Phi) - 2×2 表格

仅适用于2 行 2 列的表格的关联度量:

\(\phi = \sqrt{\frac{\chi^2}{n}}\)

💡 性质:

\(0 \leq \phi \leq 1\)
\(\phi = 0\) → 无关联
\(\phi = 1\) → 完美关联

📐 2×2 表格的直接公式:

	Y=1	Y=0
X=1	a	b
X=0	c	d

\(\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)

此公式可能得出负值(负相关)

✏️ 例子:性别与吸烟之间的关联

	吸烟	不吸烟	合计
男性	40 (a)	60 (b)	100
女性	20 (c)	80 (d)	100
合计	60	140	200

\(\phi = \frac{40 \times 80 - 60 \times 20}{\sqrt{100 \times 100 \times 60 \times 140}}\)

\(= \frac{3200 - 1200}{\sqrt{84000000}} = \frac{2000}{9165} = 0.218\)

解释:性别与吸烟之间存在弱到中等的正相关

V 克拉默度量 (Cramér's V)

将皮度量推广到任意大小的表格:

\(V = \sqrt{\frac{\chi^2}{n \cdot (k-1)}}\)

其中 k = min(r, c) = 行数与列数中的最小值

💡 性质:

\(0 \leq V \leq 1\)
\(V = 0\) → 无关联
\(V = 1\) → 完美关联
对于 2×2 表格:V = |φ|

✏️ 例子:来自第一个表格(性别与兴趣,2×3)

χ² = 20.94,n = 200

k = min(2, 3) = 2

\(V = \sqrt{\frac{20.94}{200 \times (2-1)}} = \sqrt{\frac{20.94}{200}} = \sqrt{0.1047} = 0.324\)

解释:性别与兴趣之间存在中等关联

📊 关联强度的解释(克拉默):

V 值	关联强度
0 - 0.1	可忽略 / 无关联
0.1 - 0.3	弱
0.3 - 0.5	中等
0.5+	强

λ λ度量 (Lambda)

λ 测量已知一个变量的值能多大程度改善对另一个变量的预测。

\(\lambda = \frac{E_1 - E_2}{E_1}\)

💡 说明:

\(E_1\) = 不知道解释变量时的预测错误数
\(E_2\) = 知道解释变量时的预测错误数
λ = 错误减少的比例

📐 详细公式:

\(\lambda_{Y|X} = \frac{n - \max(C_j) - \sum_i [\max_j(f_{ij}) - \max(R_i)]}{n - \max(C_j)}\)

或用更简单的形式:

\(\lambda_{Y|X} = \frac{\sum_i \max_j(f_{ij}) - \max(C_j)}{n - \max(C_j)}\)

💡 性质:

\(0 \leq \lambda \leq 1\)
\(\lambda = 0\) → 已知 X 不改善对 Y 的预测
\(\lambda = 1\) → 已知 X 能完美预测 Y
不对称: \(\lambda_{Y|X} \neq \lambda_{X|Y}\)

✏️ 例子:根据性别预测兴趣

不知道性别时:

选择最常见的兴趣:运动或音乐(各 70)

\(E_1 = 200 - 70 = 130\) 个错误

知道性别时:

男性:选择运动(50)→ 50 个正确,50 个错误

女性:选择音乐或阅读(40)→ 40 个正确,60 个错误

\(E_2 = 50 + 60 = 110\) 个错误

\(\lambda = \frac{130 - 110}{130} = \frac{20}{130} = 0.154\)

解释:已知性别可将预测错误减少 15.4%

💡 考试技巧

2×2 表格:皮(φ)

一般表格:克拉默(V)

预测:λ(λ)

期望频数:\(\frac{R \times C}{n}\)

📝 第 9 页总结

名义变量:φ(2×2)、V(一般)、λ(预测)

全部范围 [0,1],越高 = 关联越强