斯皮尔曼相关系数 - 序数变量的相关性度量

统计学

斯皮尔曼相关系数 - 序数变量

📊 何时使用斯皮尔曼?

斯皮尔曼相关系数(\(r_s\))度量两个序数变量之间的关联(或可以排名的变量)。

💡 适用于以下情况:

  • 数据是排名(第 1、2、3 名……)
  • 序数变量(低/中/高)
  • 关联是单调的但不一定是线性的
  • 存在异常值(斯皮尔曼比皮尔逊更稳健)

💡 斯皮尔曼背后的思路

斯皮尔曼基于排名而非原始值进行计算:

  1. 将每个变量转换为排名(1、2、3……)
  2. 计算排名之间的差值(\(d_i\))
  3. 基于排名差计算关联度量

图示:单调关联(非线性)

X Y 单调上升关联 斯皮尔曼可识别!

📐 斯皮尔曼公式

没有并列排名(ties)时:

\(r_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}\)

其中 \(d_i = R_{X_i} - R_{Y_i}\) = 排名之差

💡 性质:

  • \(-1 \leq r_s \leq 1\)
  • \(r_s = 1\) → 完美单调上升关联
  • \(r_s = -1\) → 完美单调下降关联
  • \(r_s = 0\) → 无单调关联

✏️ 完整例子

数据:8 名学生 - 学习时间和考试分数

学生 学时 (X) 分数 (Y) 排名 X 排名 Y d
A 2 55 1 1 0 0
B 4 62 2 2 0 0
C 5 70 3 4 -1 1
D 6 68 4 3 1 1
E 8 78 5 5 0 0
F 10 85 6 6 0 0
G 12 92 7 8 -1 1
H 15 88 8 7 1 1
合计 Σd² = 4

\(r_s = 1 - \frac{6 \times 4}{8(64-1)} = 1 - \frac{24}{8 \times 63} = 1 - \frac{24}{504} = 1 - 0.048 = 0.952\)

解释:学习时间与分数之间存在非常强的正相关

🔗 处理并列排名 (Ties)

当存在相同的值时,赋予它们平均排名:

✏️ 例子:

数据:15、20、20、25、30

15 → 排名 1

20、20 → 占据位置 2 和 3 → 平均排名:(2+3)/2 = 2.5

25 → 排名 4

30 → 排名 5

最终排名:1、2.5、2.5、4、5

✏️ 另一个例子:

数据:10、20、20、20、30

10 → 排名 1

20、20、20 → 占据位置 2、3、4 → 平均排名:(2+3+4)/3 = 3

30 → 排名 5

最终排名:1、3、3、3、5

⚠️ 请注意:

如果并列排名较多,简化公式将不够准确。

在这种情况下,使用修正公式或对排名计算皮尔逊相关系数。

📊 斯皮尔曼相关系数的解释

|rs| 的值 关联强度
0 - 0.2 可忽略 / 无关联
0.2 - 0.4
0.4 - 0.6 中等
0.6 - 0.8
0.8 - 1.0 非常强

💡 符号很重要:

  • rs > 0:正相关 - 一个上升,另一个也上升
  • rs < 0:负相关 - 一个上升,另一个下降

⚖️ 斯皮尔曼对比皮尔逊

  斯皮尔曼 (rs) 皮尔逊 (r)
基于 排名 原始值
度量关联 单调(一般) 仅线性
对异常值敏感 较不敏感 敏感
测量尺度 序数及以上 区间/比率

💡 考试技巧

排名 1 = 最低

相同值:平均排名

公式:\(1 - \frac{6\Sigma d^2}{n(n^2-1)}\)

📝 第 10 页总结

\(r_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)}\)

度量单调关联,稳健应对异常值

范围:[-1, 1]