统计学基础——变量与测量尺度

统计学基础——变量与测量尺度

在分析数据之前,需要先理解我们究竟测量了什么。在统计学中,我们测量的每一个特征都称为变量,每个变量都有其类型和测量尺度,决定了哪些运算和计算是允许的。本页将学习区分四种测量尺度、离散变量与连续变量,以及自变量、因变量与因果关系。

背景与基本定义

变量(Variable)是在不同研究对象之间可以取不同值的特征——例如身高、性别、成绩或眼睛颜色。在所有研究对象中保持不变的称为常量。

四种测量尺度,从简单到复杂:

  • 名义尺度(Nominal)——无序的类别:性别、出生国、颜色。只能区分相同/不同并计算频数。
  • 顺序尺度(Ordinal)——有排列顺序的类别,但等级间距不相等:满意度评级(低–中–高)、竞赛名次。
  • 等距尺度(Interval)——有顺序且间距相等,但零点是人为规定的:摄氏温度、公历年份。比值没有意义(\(20^\circ\) 并不是 \(10^\circ\) 的"两倍热")。
  • 比率尺度(Ratio)——与等距尺度相同,但有绝对零点:身高、体重、时间、收入。比值有意义(\(8\) kg 是 \(4\) kg 的两倍重)。

离散与连续:离散变量取可数的独立值(子女数、汽车数),连续变量在某范围内取任意值,需要测量(身高、时间)。

变量在研究中的角色:自变量是研究者改变或检验的因素("解释变量"),因变量是被测量的结果。因果关系指一个变量的变化引起另一个变量的变化——这与仅有相关关系不同,后者可能源于第三个混淆变量

解题步骤

  1. 第一步——询问该变量测量的是什么:类别(定性)还是数量(定量)?
  2. 第二步——若是定性:检查类别之间是否有顺序。无顺序→名义尺度;有顺序→顺序尺度。
  3. 第三步——若是定量:检查是否有绝对零点(意味着"完全没有")。无→等距尺度;有→比率尺度。
  4. 第四步——判断离散/连续:是计数独立值(离散)还是连续测量(连续)?
  5. 第五步——识别变量角色:被改变的"原因"是自变量,被测量的"结果"是因变量。
  6. 第六步——在断言因果关系之前,确认没有能解释两者关系的第三个混淆变量。

例题解析

例题 1: 识别测量尺度

题目: 研究者记录了每位参与者的:(甲)电话号码,(乙)柔道腰带级别(白、黄、黑),(丙)摄氏体温,(丁)体重(kg)。请对每项进行测量尺度分类。

解答:

  1. (甲)电话号码是识别标签,无顺序或数量意义——名义尺度
  2. (乙)腰带级别有明确顺序,但等级间距无法量化——顺序尺度
  3. (丙)摄氏温度:间距相等,但零点是人为规定的(\(0^\circ\) 并非"没有热量")——等距尺度
  4. (丁)体重:有绝对零点(\(0\) kg = 没有质量),比值有意义——比率尺度

答案: 依次为:名义尺度、顺序尺度、等距尺度、比率尺度。

例题 2: 离散还是连续

题目: 对每个变量进行离散或连续分类:(甲)一个人每天发送的消息数,(乙)100米跑的时间(秒),(丙)公共汽车上的乘客人数。

解答:

  1. (甲)消息数是可计数的整数,不存在"3.5条消息"——离散
  2. (乙)跑步时间可以以任意精度测量(\(11.43\) 秒、\(11.431\) 秒)——连续
  3. (丙)乘客人数是计数的整数——离散

答案: 依次为:离散、连续、离散。

例题 3: 自变量与因变量

题目: 某研究考察夜间睡眠时间是否影响第二天的考试成绩。自变量和因变量分别是什么?

解答:

  1. 问一问:谁是我们怀疑会产生影响的因素,谁是被测量的结果。
  2. 睡眠时间是影响因素——因此它是自变量
  3. 考试成绩是由睡眠引发的被测量结果——因此它是因变量
  4. 记忆技巧:因变量"依赖"自变量,正如成绩依赖睡眠时间。

答案: 自变量:睡眠时间。因变量:考试成绩。

例题 4: 因果关系还是混淆变量

题目: 研究发现鞋子尺码越大的孩子阅读能力越强。鞋子尺码会导致阅读能力提高吗?最合理的解释是什么?

解答:

  1. 表面上鞋子尺码与阅读能力之间存在正相关,但这并不意味着因果关系。
  2. 寻找能同时解释两个变量的混淆变量
  3. 年龄是混淆变量:年龄较大的孩子既穿更大的鞋,阅读能力也更强。
  4. 结论:这是一种虚假相关(仅有相关关系),鞋子尺码与阅读能力之间并无因果关系。

答案: 不是因果关系;年龄是解释两者关系的混淆变量。

例题 5: 各尺度允许的操作

题目: 一名学生通过编号(蓝色=1,绿色=2,棕色=3)计算眼睛颜色的"平均值",得到2.1。这个计算有效吗?

解答:

  1. 眼睛颜色是名义尺度变量——数字只是识别标签。
  2. 名义尺度唯一合法的操作是计算频数(以及确定众数),不能进行算术运算。
  3. 计算均值至少需要等距尺度,在该尺度上各值间距相等且有意义。
  4. 因此 \(2.1\) 没有意义——不存在"平均颜色"。

答案: 该计算无效;名义尺度变量不能计算均值。

常见错误

✗ 常见错误: 从相关关系的存在推断因果关系("X与Y相关,所以X导致Y")。

✓ 正确做法: 相关不等于因果。要主张因果关系,需要排除混淆变量,最好通过只改变自变量的受控实验来验证。

✗ 常见错误: 混淆等距尺度与比率尺度,对摄氏温度计算比值("\(30^\circ\) 是 \(10^\circ\) 的三倍热")。

✓ 正确做法: 比值只在有绝对零点的比率尺度上有意义。等距尺度(摄氏度、公历年份)的零点是人为规定的,因此只有差值有意义,比值没有意义。

✗ 常见错误: 将子女数分类为连续变量(因为是数字),或将身高分类为离散变量(因为记录为整数)。

✓ 正确做法: 关键在于是计数(离散)还是连续测量(连续),而不在于是否为数字。子女数是计数,因此是离散的;身高是连续测量,因此是连续的,即便取整记录也是如此。

练习建议

  • 提示——尺度从弱到强的顺序:名义 \(\to\) 顺序 \(\to\) 等距 \(\to\) 比率。较高级别的尺度包含较低级别的所有能力。
  • 提示——总可以从高级尺度降低到低级尺度(例如将身高划分为"低/中/高"),但反向则不行——降级会丢失信息。
  • 提示——判断离散/连续,问自己"中间值是否可能存在?"2.5个兄弟姐妹不可能(离散);2.5 kg 是可能的(连续)。
  • 提示——在实验中,研究者控制自变量并测量因变量;调节变量(Moderator)会改变两者之间关系的强度。

总结与关键公式

测量尺度:

尺度特征示例
名义无序类别性别、颜色
顺序有序但间距不等评级、名次
等距间距相等,零点任意摄氏温度
比率绝对零点,比值有意义体重、时间
  • 离散 = 计数;连续 = 测量。
  • 自变量 = 原因;因变量 = 结果。
  • 相关 \(\ne\) 因果——警惕混淆变量。