统计学:名义变量的关联度量

🔗 名义变量的关联度量

当知道一个变量的取值能提供关于另一个变量的信息时,两个变量之间就存在统计关联。

对于名义变量(无顺序的类别变量),我们使用 Lambda(λ)Cramer(V) 度量。

📋 二维频数表

频数表 - 示例 Y \ X X₁ X₂ 总计 Y₁ Y₂ 总计 n₁₁ n₁₂ n₁. n₂₁ n₂₂ n₂. n.₁ n.₂ n n.ⱼ = 第 j 列之和(X 的边缘) nᵢ. = 第 i 行之和(Y 的边缘)

λ Lambda 度量(Lambda)

Lambda 度量(λ)度量在已知 X 时对变量 Y 的预测改善程度

它基于预测误差的减少。

Lambda 公式:

λ = (E₁ − E₂) / E₁

其中:

  • E₁ = 不知道 X 时的预测误差 = n − max(nᵢ.)(总和减去 Y 的边缘众数)
  • E₂ = 知道 X 时的预测误差 = Σ(n.ⱼ − maxⱼ)(各列误差之和)
示例:
  男性 女性 总计
吸烟者 40 20 60
不吸烟者 30 50 80
总计 70 70 140
E₁ = 140 − 80 = 60(不知道性别时,预测为"不吸烟者")
E₂ = (70−40) + (70−50) = 30 + 20 = 50
λ = (60 − 50) / 60 = 10/60 = 0.167

解释:知道性别可减少 16.7% 的吸烟预测误差。

V Cramer 度量(Cramer's V)

Cramer 度量基于 χ²(卡方)统计量,适用于任意大小的表格。

Cramer 公式:

V = √(χ² / (n · (k−1)))

其中 k = min(行数, 列数)

χ² 的计算:

χ² = Σ (O − E)² / E

E = (行总计 × 列总计) / n

φ Phi 度量(Phi)

Phi 度量是 Cramer 的一个特例,仅适用于 2×2 表格

Phi 公式:

φ = √(χ² / n)
Lambda(λ) 基于 预测误差 0 ≤ λ ≤ 1 Cramer(V) 基于 χ²(卡方) 0 ≤ V ≤ 1 Phi(φ) Cramer,适用于 仅 2×2 表格 0 ≤ φ ≤ 1

📊 数值的解读

度量值 关联强度
0 无关联
0.01 − 0.09 微不足道的关联
0.10 − 0.29 弱关联
0.30 − 0.49 中等关联
0.50 − 0.69 强关联
0.70 + 非常强的关联
1 完全关联
⚠️ 重要的区别:
  • Lambda 即使存在关联也可能为 0(如果众数在所有列中都相同)
  • Cramer 更为敏感,在这类情形下也能识别出关联
  • Lambda 不对称 —— λ(Y|X) ≠ λ(X|Y)

 OpenBook © 2025 © רוית הלפנבאום