🔗 名义变量的关联度量
当知道一个变量的取值能提供关于另一个变量的信息时,两个变量之间就存在统计关联。
对于名义变量(无顺序的类别变量),我们使用 Lambda(λ) 与 Cramer(V) 度量。
📋 二维频数表
λ Lambda 度量(Lambda)
Lambda 度量(λ)度量在已知 X 时对变量 Y 的预测改善程度。
它基于预测误差的减少。
Lambda 公式:
λ = (E₁ − E₂) / E₁
λ = (E₁ − E₂) / E₁
其中:
- E₁ = 不知道 X 时的预测误差 = n − max(nᵢ.)(总和减去 Y 的边缘众数)
- E₂ = 知道 X 时的预测误差 = Σ(n.ⱼ − maxⱼ)(各列误差之和)
示例:
E₁ = 140 − 80 = 60(不知道性别时,预测为"不吸烟者")
E₂ = (70−40) + (70−50) = 30 + 20 = 50
λ = (60 − 50) / 60 = 10/60 = 0.167
解释:知道性别可减少 16.7% 的吸烟预测误差。
| 男性 | 女性 | 总计 | |
|---|---|---|---|
| 吸烟者 | 40 | 20 | 60 |
| 不吸烟者 | 30 | 50 | 80 |
| 总计 | 70 | 70 | 140 |
E₂ = (70−40) + (70−50) = 30 + 20 = 50
λ = (60 − 50) / 60 = 10/60 = 0.167
解释:知道性别可减少 16.7% 的吸烟预测误差。
V Cramer 度量(Cramer's V)
Cramer 度量基于 χ²(卡方)统计量,适用于任意大小的表格。
Cramer 公式:
V = √(χ² / (n · (k−1)))
其中 k = min(行数, 列数)
V = √(χ² / (n · (k−1)))
其中 k = min(行数, 列数)
χ² 的计算:
χ² = Σ (O − E)² / E
E = (行总计 × 列总计) / n
E = (行总计 × 列总计) / n
φ Phi 度量(Phi)
Phi 度量是 Cramer 的一个特例,仅适用于 2×2 表格。
Phi 公式:
φ = √(χ² / n)
φ = √(χ² / n)
📊 数值的解读
| 度量值 | 关联强度 |
|---|---|
| 0 | 无关联 |
| 0.01 − 0.09 | 微不足道的关联 |
| 0.10 − 0.29 | 弱关联 |
| 0.30 − 0.49 | 中等关联 |
| 0.50 − 0.69 | 强关联 |
| 0.70 + | 非常强的关联 |
| 1 | 完全关联 |
⚠️ 重要的区别:
- Lambda 即使存在关联也可能为 0(如果众数在所有列中都相同)
- Cramer 更为敏感,在这类情形下也能识别出关联
- Lambda 不对称 —— λ(Y|X) ≠ λ(X|Y)
OpenBook © 2025 © רוית הלפנבאום