统计学
区间变量相关性度量 - Eta 与皮尔逊
📊 区间变量之间的关联类型
在处理区间/比率变量时,主要有两种关联类型:
🔄
非线性关联
度量:Eta (η)
📈
线性关联
度量:皮尔逊 (r)
η Eta 度量 (Eta) - 非线性关联
Eta 度量关联强度,无需假设其形式。
基于方差比例 - 即 Y 中有多少变异由 X 解释
📐 公式:
\(\eta^2 = \frac{SS_{between}}{SS_{total}} = \frac{\sum n_j(\bar{Y}_j - \bar{Y})^2}{\sum(Y_i - \bar{Y})^2}\)
\(\eta = \sqrt{\eta^2}\)
💡 各项说明:
- \(SS_{total}\) = Y 的总方差(各值相对总均值偏差的平方和)
- \(SS_{between}\) = 组间方差(由 X 引起的)
- \(\bar{Y}_j\) = 第 j 组 Y 的均值
- \(\bar{Y}\) = Y 的总均值
- \(n_j\) = 第 j 组的大小
💡 性质:
- \(0 \leq \eta \leq 1\)
- \(\eta = 0\) → 完全无关联
- \(\eta = 1\) → 完美关联(不一定是线性!)
- \(\eta^2\) = 解释方差的比例
- 不对称: \(\eta_{Y|X} \neq \eta_{X|Y}\)
✏️ 例子:肥料类型(A、B、C)对产量的影响
| 肥料 A | 肥料 B | 肥料 C |
|---|---|---|
| 20, 22, 24 | 30, 32, 34 | 25, 27, 29 |
| \(\bar{Y}_A = 22\) | \(\bar{Y}_B = 32\) | \(\bar{Y}_C = 27\) |
总均值: \(\bar{Y} = \frac{20+22+24+30+32+34+25+27+29}{9} = 27\)
SSbetween:
\(= 3(22-27)^2 + 3(32-27)^2 + 3(27-27)^2\)
\(= 3(25) + 3(25) + 3(0) = 75 + 75 + 0 = 150\)
SStotal:
\(= (20-27)^2 + (22-27)^2 + ... + (29-27)^2\)
\(= 49 + 25 + 9 + 9 + 25 + 49 + 4 + 0 + 4 = 174\)
\(\eta^2 = \frac{150}{174} = 0.862\)
\(\eta = \sqrt{0.862} = 0.928\)
解释:非常强的关联。肥料类型解释了产量变异的 86.2%。
r 皮尔逊度量 (Pearson) - 线性关联
皮尔逊相关系数度量两个变量之间线性关联的强度和方向。
最常用的关联度量!
📐 公式:
使用协方差的公式:
\(r = \frac{Cov(X,Y)}{S_X \cdot S_Y} = \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{n \cdot S_X \cdot S_Y}\)
直接公式:
\(r = \frac{n\sum X_iY_i - \sum X_i \sum Y_i}{\sqrt{[n\sum X_i^2 - (\sum X_i)^2][n\sum Y_i^2 - (\sum Y_i)^2]}}\)
💡 性质:
- \(-1 \leq r \leq 1\)
- \(r = 1\) → 完美正线性关联
- \(r = -1\) → 完美负线性关联
- \(r = 0\) → 无线性关联(可能存在其他关联!)
- 对称: \(r_{XY} = r_{YX}\)
- \(r^2\) = 决定系数(解释方差比例)
✏️ 完整例子 - 皮尔逊计算
数据:6 名学生的学习时间 (X) 和考试分数 (Y)
| i | X | Y | X² | Y² | XY |
|---|---|---|---|---|---|
| 1 | 2 | 50 | 4 | 2500 | 100 |
| 2 | 4 | 60 | 16 | 3600 | 240 |
| 3 | 5 | 65 | 25 | 4225 | 325 |
| 4 | 6 | 70 | 36 | 4900 | 420 |
| 5 | 8 | 80 | 64 | 6400 | 640 |
| 6 | 10 | 90 | 100 | 8100 | 900 |
| Σ | 35 | 415 | 245 | 29725 | 2625 |
n = 6
分子:
\(n\sum XY - \sum X \sum Y = 6 \times 2625 - 35 \times 415 = 15750 - 14525 = 1225\)
分母:
\(n\sum X^2 - (\sum X)^2 = 6 \times 245 - 35^2 = 1470 - 1225 = 245\)
\(n\sum Y^2 - (\sum Y)^2 = 6 \times 29725 - 415^2 = 178350 - 172225 = 6125\)
\(\sqrt{245 \times 6125} = \sqrt{1500625} = 1225\)
\(r = \frac{1225}{1225} = 1.0\)
解释:完美的正线性关联!(数据是这样选定的)
📊 皮尔逊相关系数的解释
| |r| 的值 | 关联强度 |
|---|---|
| 0 - 0.2 | 可忽略 / 无关联 |
| 0.2 - 0.4 | 弱 |
| 0.4 - 0.6 | 中等 |
| 0.6 - 0.8 | 强 |
| 0.8 - 1.0 | 非常强 |
图示:不同相关性的示例
r² 决定系数 (Coefficient of Determination)
r² 表示一个变量中由与另一个变量的关联所解释的方差比例。
✏️ 例子:
如果 r = 0.8,则 r² = 0.64
解释:Y 中 64% 的方差由与 X 的线性关联解释。
36% 的方差源于其他因素。
⚖️ 比较:Eta 对比皮尔逊
| Eta (η) | 皮尔逊 (r) | |
|---|---|---|
| 关联类型 | 任何关联 | 仅线性 |
| 范围 | [0, 1] | [-1, 1] |
| 对称? | 否 | 是 |
| 显示方向? | 否 | 是(+ 或 -) |
| 二者关系 | \(\eta \geq |r|\) 始终成立! | |
💡 何时 η > |r|?
当关联非线性时。差值反映了关联中的非线性成分。
💡 考试技巧
线性关联:皮尔逊
一般关联:Eta
r² = 解释比例
始终:η ≥ |r|
📝 第 11 页总结
Eta (η):一般关联,[0,1],不对称
皮尔逊 (r):线性关联,[-1,1],对称
r² = 决定系数 = 解释方差比例