区间变量相关性度量 - Eta 系数与皮尔逊相关系数

统计学

区间变量相关性度量 - Eta 与皮尔逊

📊 区间变量之间的关联类型

在处理区间/比率变量时,主要有两种关联类型:

🔄

非线性关联

度量:Eta (η)

📈

线性关联

度量:皮尔逊 (r)

线性关联(皮尔逊) 非线性关联(Eta)

η Eta 度量 (Eta) - 非线性关联

Eta 度量关联强度,无需假设其形式

基于方差比例 - 即 Y 中有多少变异由 X 解释

📐 公式:

\(\eta^2 = \frac{SS_{between}}{SS_{total}} = \frac{\sum n_j(\bar{Y}_j - \bar{Y})^2}{\sum(Y_i - \bar{Y})^2}\)

\(\eta = \sqrt{\eta^2}\)

💡 各项说明:

  • \(SS_{total}\) = Y 的总方差(各值相对总均值偏差的平方和)
  • \(SS_{between}\) = 组间方差(由 X 引起的)
  • \(\bar{Y}_j\) = 第 j 组 Y 的均值
  • \(\bar{Y}\) = Y 的总均值
  • \(n_j\) = 第 j 组的大小

💡 性质:

  • \(0 \leq \eta \leq 1\)
  • \(\eta = 0\) → 完全无关联
  • \(\eta = 1\) → 完美关联(不一定是线性!)
  • \(\eta^2\) = 解释方差的比例
  • 不对称: \(\eta_{Y|X} \neq \eta_{X|Y}\)

✏️ 例子:肥料类型(A、B、C)对产量的影响

肥料 A 肥料 B 肥料 C
20, 22, 24 30, 32, 34 25, 27, 29
\(\bar{Y}_A = 22\) \(\bar{Y}_B = 32\) \(\bar{Y}_C = 27\)

总均值: \(\bar{Y} = \frac{20+22+24+30+32+34+25+27+29}{9} = 27\)

SSbetween:

\(= 3(22-27)^2 + 3(32-27)^2 + 3(27-27)^2\)

\(= 3(25) + 3(25) + 3(0) = 75 + 75 + 0 = 150\)

SStotal:

\(= (20-27)^2 + (22-27)^2 + ... + (29-27)^2\)

\(= 49 + 25 + 9 + 9 + 25 + 49 + 4 + 0 + 4 = 174\)

\(\eta^2 = \frac{150}{174} = 0.862\)

\(\eta = \sqrt{0.862} = 0.928\)

解释:非常强的关联。肥料类型解释了产量变异的 86.2%。

r 皮尔逊度量 (Pearson) - 线性关联

皮尔逊相关系数度量两个变量之间线性关联的强度和方向。

最常用的关联度量!

📐 公式:

使用协方差的公式:

\(r = \frac{Cov(X,Y)}{S_X \cdot S_Y} = \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{n \cdot S_X \cdot S_Y}\)

直接公式:

\(r = \frac{n\sum X_iY_i - \sum X_i \sum Y_i}{\sqrt{[n\sum X_i^2 - (\sum X_i)^2][n\sum Y_i^2 - (\sum Y_i)^2]}}\)

💡 性质:

  • \(-1 \leq r \leq 1\)
  • \(r = 1\) → 完美正线性关联
  • \(r = -1\) → 完美负线性关联
  • \(r = 0\) → 无线性关联(可能存在其他关联!)
  • 对称: \(r_{XY} = r_{YX}\)
  • \(r^2\) = 决定系数(解释方差比例)

✏️ 完整例子 - 皮尔逊计算

数据:6 名学生的学习时间 (X) 和考试分数 (Y)

i X Y XY
1 2 50 4 2500 100
2 4 60 16 3600 240
3 5 65 25 4225 325
4 6 70 36 4900 420
5 8 80 64 6400 640
6 10 90 100 8100 900
Σ 35 415 245 29725 2625

n = 6

分子:

\(n\sum XY - \sum X \sum Y = 6 \times 2625 - 35 \times 415 = 15750 - 14525 = 1225\)

分母:

\(n\sum X^2 - (\sum X)^2 = 6 \times 245 - 35^2 = 1470 - 1225 = 245\)

\(n\sum Y^2 - (\sum Y)^2 = 6 \times 29725 - 415^2 = 178350 - 172225 = 6125\)

\(\sqrt{245 \times 6125} = \sqrt{1500625} = 1225\)

\(r = \frac{1225}{1225} = 1.0\)

解释:完美的正线性关联!(数据是这样选定的)

📊 皮尔逊相关系数的解释

|r| 的值 关联强度
0 - 0.2 可忽略 / 无关联
0.2 - 0.4
0.4 - 0.6 中等
0.6 - 0.8
0.8 - 1.0 非常强

图示:不同相关性的示例

r = 1 r ≈ 0.7 r ≈ 0 r ≈ -0.7 r = -1

r² 决定系数 (Coefficient of Determination)

表示一个变量中由与另一个变量的关联所解释的方差比例

✏️ 例子:

如果 r = 0.8,则 r² = 0.64

解释:Y 中 64% 的方差由与 X 的线性关联解释。

36% 的方差源于其他因素。

⚖️ 比较:Eta 对比皮尔逊

  Eta (η) 皮尔逊 (r)
关联类型 任何关联 仅线性
范围 [0, 1] [-1, 1]
对称?
显示方向? 是(+ 或 -)
二者关系 \(\eta \geq |r|\) 始终成立!

💡 何时 η > |r|?

当关联非线性时。差值反映了关联中的非线性成分。

💡 考试技巧

线性关联:皮尔逊

一般关联:Eta

r² = 解释比例

始终:η ≥ |r|

📝 第 11 页总结

Eta (η):一般关联,[0,1],不对称

皮尔逊 (r):线性关联,[-1,1],对称

r² = 决定系数 = 解释方差比例