统计学
斯皮尔曼相关系数 - 序数变量
📊 何时使用斯皮尔曼?
斯皮尔曼相关系数(\(r_s\))度量两个序数变量之间的关联(或可以排名的变量)。
💡 适用于以下情况:
- 数据是排名(第 1、2、3 名……)
- 序数变量(低/中/高)
- 关联是单调的但不一定是线性的
- 存在异常值(斯皮尔曼比皮尔逊更稳健)
💡 斯皮尔曼背后的思路
斯皮尔曼基于排名而非原始值进行计算:
- 将每个变量转换为排名(1、2、3……)
- 计算排名之间的差值(\(d_i\))
- 基于排名差计算关联度量
图示:单调关联(非线性)
📐 斯皮尔曼公式
当没有并列排名(ties)时:
\(r_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}\)
其中 \(d_i = R_{X_i} - R_{Y_i}\) = 排名之差
💡 性质:
- \(-1 \leq r_s \leq 1\)
- \(r_s = 1\) → 完美单调上升关联
- \(r_s = -1\) → 完美单调下降关联
- \(r_s = 0\) → 无单调关联
✏️ 完整例子
数据:8 名学生 - 学习时间和考试分数
| 学生 | 学时 (X) | 分数 (Y) | 排名 X | 排名 Y | d | d² |
|---|---|---|---|---|---|---|
| A | 2 | 55 | 1 | 1 | 0 | 0 |
| B | 4 | 62 | 2 | 2 | 0 | 0 |
| C | 5 | 70 | 3 | 4 | -1 | 1 |
| D | 6 | 68 | 4 | 3 | 1 | 1 |
| E | 8 | 78 | 5 | 5 | 0 | 0 |
| F | 10 | 85 | 6 | 6 | 0 | 0 |
| G | 12 | 92 | 7 | 8 | -1 | 1 |
| H | 15 | 88 | 8 | 7 | 1 | 1 |
| 合计 | Σd² = 4 | |||||
\(r_s = 1 - \frac{6 \times 4}{8(64-1)} = 1 - \frac{24}{8 \times 63} = 1 - \frac{24}{504} = 1 - 0.048 = 0.952\)
解释:学习时间与分数之间存在非常强的正相关
🔗 处理并列排名 (Ties)
当存在相同的值时,赋予它们平均排名:
✏️ 例子:
数据:15、20、20、25、30
15 → 排名 1
20、20 → 占据位置 2 和 3 → 平均排名:(2+3)/2 = 2.5
25 → 排名 4
30 → 排名 5
最终排名:1、2.5、2.5、4、5
✏️ 另一个例子:
数据:10、20、20、20、30
10 → 排名 1
20、20、20 → 占据位置 2、3、4 → 平均排名:(2+3+4)/3 = 3
30 → 排名 5
最终排名:1、3、3、3、5
⚠️ 请注意:
如果并列排名较多,简化公式将不够准确。
在这种情况下,使用修正公式或对排名计算皮尔逊相关系数。
📊 斯皮尔曼相关系数的解释
| |rs| 的值 | 关联强度 |
|---|---|
| 0 - 0.2 | 可忽略 / 无关联 |
| 0.2 - 0.4 | 弱 |
| 0.4 - 0.6 | 中等 |
| 0.6 - 0.8 | 强 |
| 0.8 - 1.0 | 非常强 |
💡 符号很重要:
- rs > 0:正相关 - 一个上升,另一个也上升
- rs < 0:负相关 - 一个上升,另一个下降
⚖️ 斯皮尔曼对比皮尔逊
| 斯皮尔曼 (rs) | 皮尔逊 (r) | |
|---|---|---|
| 基于 | 排名 | 原始值 |
| 度量关联 | 单调(一般) | 仅线性 |
| 对异常值敏感 | 较不敏感 | 敏感 |
| 测量尺度 | 序数及以上 | 区间/比率 |
💡 考试技巧
排名 1 = 最低
相同值:平均排名
公式:\(1 - \frac{6\Sigma d^2}{n(n^2-1)}\)
📝 第 10 页总结
\(r_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}\)
度量单调关联,稳健应对异常值
范围:[-1, 1]