统计学:名义变量的关联度量

🔗 名义变量的关联度量

当知道一个变量的取值能提供关于另一个变量的信息时,两个变量之间就存在统计关联。

对于名义变量(无顺序的类别变量),我们使用 Lambda(λ) 与 Cramer(V) 度量。

Lambda 度量(λ)度量在已知 X 时对变量 Y 的预测改善程度。

它基于预测误差的减少。

Lambda 公式:

λ = (E₁ − E₂) / E₁

其中:

示例:

E₁ = 140 − 80 = 60(不知道性别时,预测为"不吸烟者")
E₂ = (70−40) + (70−50) = 30 + 20 = 50
λ = (60 − 50) / 60 = 10/60 = 0.167

解释:知道性别可减少 16.7% 的吸烟预测误差。

Cramer 度量基于 χ²(卡方)统计量,适用于任意大小的表格。

Cramer 公式:

V = √(χ² / (n · (k−1)))

其中 k = min(行数, 列数)

χ² 的计算:

χ² = Σ (O − E)² / E

E = (行总计 × 列总计) / n

Phi 度量是 Cramer 的一个特例,仅适用于 2×2 表格。

Phi 公式:

φ = √(χ² / n)

⚠️ 重要的区别: