统计学:皮尔逊相关系数与回归分析

📈 皮尔逊相关系数与回归

皮尔逊相关系数(r)度量两个区间/比率变量之间线性关联的强度与方向。

取值范围:−1 ≤ r ≤ +1

正向线性关联 r ≈ +1 负向线性关联 r ≈ -1 无线性关联 r ≈ 0

📐 协方差(Covariance)

sₓᵧ = Σ(xᵢ − x̄)(yᵢ − ȳ) / (n−1)

或用简化公式:
sₓᵧ = [Σxᵢyᵢ − (Σxᵢ·Σyᵢ)/n] / (n−1)

协方差度量关联的方向:

  • sₓᵧ > 0 → 正向关联
  • sₓᵧ < 0 → 负向关联
  • sₓᵧ = 0 → 无线性关联

r 皮尔逊公式

r = sₓᵧ / (sₓ · sᵧ)

其中 sₓ 与 sᵧ 是 X 与 Y 的标准差

📏 预测线(回归)

预测线(回归线)是最好地描述 X 与 Y 之间线性关联的那条直线。

直线方程:ŷ = a + bx

直线斜率: b = r · (sᵧ / sₓ)

截距: a = ȳ − b·x̄
X Y ŷ = a + bx(预测线) 误差(e)

📊 决定系数(R²)

R² = r²

R² 代表 Y 的方差中由 X 所解释的百分比
示例:若 r = 0.8,则 R² = 0.64
解释: Y 的 64% 的方差由它与 X 的关联所解释。
剩下的 36% 由其他因素解释。

🔢 预测的方差与误差的方差

总方差 = 预测的方差 + 误差的方差

sᵧ² = s²ŷ + s²ₑ
分量 公式 含义
预测的方差 s²ŷ = r² · sᵧ² 由 X 所解释的部分
误差的方差 s²ₑ = (1 − r²) · sᵧ² 未被解释的部分

⚠️ 重要事项

  • 相关 ≠ 因果:强关联不能证明 X 导致 Y!
  • r 只度量线性关联:可能存在 r=0 的很强的非线性关联
  • 对极端值敏感:离群点(Outliers)可能显著地改变 r
  • 正态分布:显著性检验需要正态分布

📋 关联度量的比较

度量 变量类型 关联类型 取值范围
Lambda(λ) 名义 一般性的 0 至 1
Cramer(V) 名义 一般性的 0 至 1
Spearman(rₛ) 顺序 单调 -1 至 +1
Pearson(r) 区间/比率 线性 -1 至 +1

OpenBook © 2025 © רוית הלפנבאום