基础统计——频数表、频率分布与图表

基础统计——频数表、频率分布与图表

当我们收集数据——成绩、身高、兄弟姐妹人数——会得到一份冗长难读的列表。描述统计帮助我们以讲述故事的方式整理数据:每个值出现了多少次、数据集中在哪里,以及哪些值是异常值。本页将学习如何构建频数表,并选择合适的图表类型。

背景与基本定义

我们从核心概念入手:

  • 频数——某个特定值在数据中出现的次数。
  • 相对频率——频数除以总观测次数,\( \frac{f_i}{n} \)。它表示每个值占数据的比例,通常以小数或百分比表示。
  • 频率分布——完整的表格,显示每个值(或区间)及其对应的频数。

数据类型决定图表选择:

  • 离散数据——可数的独立值(兄弟姐妹人数、书籍数量)。适合用条形图——各条之间有间隔,因为值与值之间没有意义(不存在2.5个兄弟姐妹)。
  • 连续数据——在某个范围内的测量值(身高、时间、体重)。适合用直方图——各柱紧密相连,因为数据是连续流动的。

当不同值较多时,将它们分组为组距(区间),如60–69、70–79。在直方图中,每根柱的高度代表该区间的频数。

1326384552 数值 频数
频数表的直方图

解题步骤

  1. 第一步——将所有可能的值(或区间)从小到大列在一列中。
  2. 第二步——逐一浏览数据,在每个值旁边划记(tally);计数得到频数。
  3. 第三步——自我检验:所有频数之和必须等于总观测次数 \( n \)。
  4. 第四步——如有需要,计算相对频率:每行的 \( \frac{f_i}{n} \)。
  5. 第五步——判断数据类型:离散→条形图,连续→直方图。
  6. 第六步——绘制图表:每根条/柱的高度等于频数,并标注清晰的坐标轴。

例题解析

例题 1: 从数据列表构建频数

题目: 10名学生的宠物数量数据如下:0, 1, 1, 2, 0, 3, 1, 2, 1, 0。值1的频数是多少?

解答:

  1. 标记并计数每个值出现的次数。
  2. 值1出现的位置:1, 1, 1, 1——共四次。
  3. 因此值1的频数为4。

答案: 值1的频数为 \( 4 \)。

例题 2: 完整频数表与总和验证

题目: 班级学生被问及有多少兄弟姐妹,得到以下数据:0, 2, 1, 1, 3, 2, 0, 1, 2, 1, 4, 1。请构建频数表并验证。

解答:

  1. 可能的值:0, 1, 2, 3, 4。逐一计数。
  2. 0出现2次;1出现5次;2出现3次;3出现1次;4出现1次。
  3. 兄弟姐妹人数频数
    02
    15
    23
    31
    41
  4. 验证:\( 2 + 5 + 3 + 1 + 1 = 12 \),恰好等于学生人数——表格正确。
  5. 最常见的兄弟姐妹人数为1(频数5)。

答案: 表格正确(频数总和为12),众数为 \( 1 \)。

例题 3: 从给定表格中识别众数

题目: 给定成绩频数表:50→4,60→6,70→11,80→5。哪个成绩最常见?共有多少学生参加了考试?

解答:

  1. 最常见的值是频数最高的值。
  2. 各频数为4、6、11、5——最高为11,对应成绩70。
  3. 学生总数为频数之和:\( 4 + 6 + 11 + 5 = 26 \)。

答案: 最常见的成绩为 \( 70 \),共有 \( 26 \) 名学生参加考试。

例题 4: 相对频率

题目: 在40个家庭的样本中,有10个家庭拥有一辆汽车。"拥有一辆汽车"的相对频率是多少?

解答:

  1. 相对频率 = 频数除以总观测次数:\( \frac{f}{n} = \frac{10}{40} \)。
  2. \( \frac{10}{40} = \frac{1}{4} = 0.25 \)。
  3. 用百分比表示:\( 0.25 \times 100 = 25\% \)。

答案: 相对频率为 \( 0.25 \),即 \( 25\% \)。

例题 5: 选择合适的图表类型

题目: 一位教师收集了50名学生100米跑的时间(秒)。应该用条形图还是直方图来呈现?为什么?

解答:

  1. 判断数据类型:时间是测量值,可以取区间内的任意值(12.3秒、12.31秒……)。
  2. 因此这是连续数据,而非可数的离散值。
  3. 连续数据需要分组为区间(如12–13、13–14秒),并用直方图呈现——各柱紧密相连以体现连续性。
  4. 条形图则适用于离散数据,值与值之间存在间隔。

答案: 首选直方图,因为跑步时间是连续数据。

常见错误

✗ 常见错误: 混淆值与其频数——被问到"最常见的值是什么"时,回答了最高频数而非对应的值。

✓ 正确做法: "最常见的"是出现次数最多的,而不是出现的次数本身。如果70出现了11次,答案是70而不是11。

✗ 常见错误: 对离散数据(如兄弟姐妹人数)绘制柱紧密相连的直方图。

✓ 正确做法: 离散数据应使用条形图,各条之间留有间隔。间隔强调了不存在中间值——2.5个兄弟姐妹是没有意义的。

✗ 常见错误: 将数据分组为重叠的区间,例如60–70与70–80,导致70不清楚属于哪个区间。

✓ 正确做法: 定义不重叠的区间,例如60–69与70–79,或制定明确规则("上边界属于下一个区间")。每个观测值必须恰好落入一个区间。

练习建议

  • 提示——始终检查频数之和是否等于观测总数 \( n \)。如果不等,说明计数有误或遗漏了数据。
  • 提示——记住区别:"计数"→离散→条形图;"测量"→连续→直方图。
  • 提示——直方图非常适合识别极端值:图表边缘孤立的柱表示某个学生成绩异常偏高或偏低。
  • 提示——分组时保持组距一致(例如全部为10)。不同宽度的区间会扭曲视觉效果。

总结与关键公式

  • 频数 = 某值出现的次数;相对频率 \( = \frac{f_i}{n} \)。
  • 所有频数之和始终等于观测总数 \( n \)。
  • 离散(计数)→ 条形图(各条分开)。
  • 连续(测量)→ 直方图(各柱相邻)。
  • 条/柱的高度 = 该值或区间的频数。