统计学:百分位数与四分位数

统计学

第 8 页:百分位数与四分位数

📊 什么是百分位数?

第 k 百分位数(记作 \(P_k\))是数据中k % 的值都低于该值的数。

✏️ 例子:

  • \(P_{25}\) = 25% 的数据低于该值
  • \(P_{50}\) = 50% 的数据低于该值 = 中位数!
  • \(P_{90}\) = 90% 的数据低于该值
0% P₂₅ 25% P₅₀ = 中位数 50% P₇₅ 75% 100%

📊 四分位数 (Quartiles)

四分位数将数据分成 4 个相等的部分(每个 25%)。

四分位数 符号 等于... 含义
下四分位数 \(Q_1\) \(P_{25}\) 25% 在其之下
中四分位数 \(Q_2\) \(P_{50}\) = 中位数 50% 在其之下
上四分位数 \(Q_3\) \(P_{75}\) 75% 在其之下
25% 25% 25% 25% min Q₁ Q₂ Q₃ max

🔢 计算四分位数 - 离散数据

方法:

  1. 将数据从小到大排序
  2. 计算四分位数的位置:\(\frac{k(n+1)}{4}\)
  3. 若位置为整数 - 即为该值。若不是 - 加权平均

✏️ 例子:11 个分数(已排序):

55, 60, 65, 70, 72, 75, 78, 82, 85, 90, 95

(n = 11)

Q₁(下四分位数):

位置 = \(\frac{1 \times 12}{4} = 3\)

Q₁ = 65(位置 3 处的值)

Q₂(中位数):

位置 = \(\frac{2 \times 12}{4} = 6\)

Q₂ = 75(位置 6 处的值)

Q₃(上四分位数):

位置 = \(\frac{3 \times 12}{4} = 9\)

Q₃ = 85(位置 9 处的值)

✏️ 位置不为整数的例子:10 个数据

50, 55, 60, 65, 70, 75, 80, 85, 90, 95

Q₁:

位置 = \(\frac{1 \times 11}{4} = 2.75\)

Q₁ 介于位置 2(55)和位置 3(60)之间

\(Q_1 = 55 + 0.75 \times (60-55) = 55 + 3.75 = 58.75\)

📊 计算四分位数 - 分组数据

插值公式(类似于中位数):

\(Q_k = L + \frac{\frac{kn}{4} - F_{prev}}{f_Q} \cdot h\)

✏️ 例子:40 名学生的分数

f F
50-59 4 4
60-69 ← Q₁ 8 12
70-79 12 24
80-89 ← Q₃ 10 34
90-99 6 40

Q₁:位置 = n/4 = 10

Q₁ 所在组:60-69(F = 12 包含位置 10)

\(Q_1 = 59.5 + \frac{10 - 4}{8} \times 10 = 59.5 + 7.5 = 67\)

Q₃:位置 = 3n/4 = 30

Q₃ 所在组:80-89(F = 34 包含位置 30)

\(Q_3 = 79.5 + \frac{30 - 24}{10} \times 10 = 79.5 + 6 = 85.5\)

📏 四分位距 (IQR)

四分位距= 上四分位数减去下四分位数

\(IQR = Q_3 - Q_1\)

💡 为什么有用?

  • 衡量中间 50% 数据的离散程度
  • 不受极端值影响(与极差不同)
  • 用于识别异常值(outliers)

✏️ 接上面的例子:

\(IQR = Q_3 - Q_1 = 85.5 - 67 = 18.5\)

箱线图 (Box Plot):

min Q₁ Q₂ Q₃ max IQR

🔍 识别异常值 (Outliers)

1.5 × IQR 法则:

一个值被视为异常值,如果它:

  • 小于 \(Q_1 - 1.5 \times IQR\)(下界)
  • 大于 \(Q_3 + 1.5 \times IQR\)(上界)

✏️ 例子:

Q₁ = 67,Q₃ = 85.5,IQR = 18.5

下界 = 67 - 1.5 × 18.5 = 67 - 27.75 = 39.25

上界 = 85.5 + 1.5 × 18.5 = 85.5 + 27.75 = 113.25

任何低于 39.25 或高于 113.25 的分数都是异常值!

📊 十分位数 (Deciles)

十分位数将数据分成 10 个相等的部分(每个 10%)。

符号:\(D_1, D_2, ..., D_9\)

  • \(D_1 = P_{10}\)(10% 在其之下)
  • \(D_5 = P_{50}\) = 中位数
  • \(D_9 = P_{90}\)(90% 在其之下)

💡 考试技巧

Q₂ = 中位数 = P₅₀

IQR = Q₃ - Q₁

异常值:1.5×IQR 之外

📝 第 8 页总结

四分位数分成 4 个部分:Q₁、Q₂、Q₃

IQR = Q₃ - Q₁(不受极端值影响)