📈 皮尔逊相关系数与回归
皮尔逊相关系数(r)度量两个区间/比率变量之间线性关联的强度与方向。
取值范围:−1 ≤ r ≤ +1
📐 协方差(Covariance)
sₓᵧ = Σ(xᵢ − x̄)(yᵢ − ȳ) / (n−1)
或用简化公式:
sₓᵧ = [Σxᵢyᵢ − (Σxᵢ·Σyᵢ)/n] / (n−1)
或用简化公式:
sₓᵧ = [Σxᵢyᵢ − (Σxᵢ·Σyᵢ)/n] / (n−1)
协方差度量关联的方向:
- sₓᵧ > 0 → 正向关联
- sₓᵧ < 0 → 负向关联
- sₓᵧ = 0 → 无线性关联
r 皮尔逊公式
r = sₓᵧ / (sₓ · sᵧ)
其中 sₓ 与 sᵧ 是 X 与 Y 的标准差
其中 sₓ 与 sᵧ 是 X 与 Y 的标准差
📏 预测线(回归)
预测线(回归线)是最好地描述 X 与 Y 之间线性关联的那条直线。
直线方程:ŷ = a + bx
直线斜率: b = r · (sᵧ / sₓ)
截距: a = ȳ − b·x̄
截距: a = ȳ − b·x̄
📊 决定系数(R²)
R² = r²
R² 代表 Y 的方差中由 X 所解释的百分比
R² 代表 Y 的方差中由 X 所解释的百分比
示例:若 r = 0.8,则 R² = 0.64
解释: Y 的 64% 的方差由它与 X 的关联所解释。
剩下的 36% 由其他因素解释。
解释: Y 的 64% 的方差由它与 X 的关联所解释。
剩下的 36% 由其他因素解释。
🔢 预测的方差与误差的方差
总方差 = 预测的方差 + 误差的方差
sᵧ² = s²ŷ + s²ₑ
sᵧ² = s²ŷ + s²ₑ
| 分量 | 公式 | 含义 |
|---|---|---|
| 预测的方差 | s²ŷ = r² · sᵧ² | 由 X 所解释的部分 |
| 误差的方差 | s²ₑ = (1 − r²) · sᵧ² | 未被解释的部分 |
⚠️ 重要事项
- 相关 ≠ 因果:强关联不能证明 X 导致 Y!
- r 只度量线性关联:可能存在 r=0 的很强的非线性关联
- 对极端值敏感:离群点(Outliers)可能显著地改变 r
- 正态分布:显著性检验需要正态分布
📋 关联度量的比较
| 度量 | 变量类型 | 关联类型 | 取值范围 |
|---|---|---|---|
| Lambda(λ) | 名义 | 一般性的 | 0 至 1 |
| Cramer(V) | 名义 | 一般性的 | 0 至 1 |
| Spearman(rₛ) | 顺序 | 单调 | -1 至 +1 |
| Pearson(r) | 区间/比率 | 线性 | -1 至 +1 |
OpenBook © 2025 © רוית הלפנבאום