统计学基础——变量与测量尺度
在分析数据之前,需要先理解我们究竟测量了什么。在统计学中,我们测量的每一个特征都称为变量,每个变量都有其类型和测量尺度,决定了哪些运算和计算是允许的。本页将学习区分四种测量尺度、离散变量与连续变量,以及自变量、因变量与因果关系。
背景与基本定义
变量(Variable)是在不同研究对象之间可以取不同值的特征——例如身高、性别、成绩或眼睛颜色。在所有研究对象中保持不变的称为常量。
四种测量尺度,从简单到复杂:
- 名义尺度(Nominal)——无序的类别:性别、出生国、颜色。只能区分相同/不同并计算频数。
- 顺序尺度(Ordinal)——有排列顺序的类别,但等级间距不相等:满意度评级(低–中–高)、竞赛名次。
- 等距尺度(Interval)——有顺序且间距相等,但零点是人为规定的:摄氏温度、公历年份。比值没有意义(\(20^\circ\) 并不是 \(10^\circ\) 的"两倍热")。
- 比率尺度(Ratio)——与等距尺度相同,但有绝对零点:身高、体重、时间、收入。比值有意义(\(8\) kg 是 \(4\) kg 的两倍重)。
离散与连续:离散变量取可数的独立值(子女数、汽车数),连续变量在某范围内取任意值,需要测量(身高、时间)。
变量在研究中的角色:自变量是研究者改变或检验的因素("解释变量"),因变量是被测量的结果。因果关系指一个变量的变化引起另一个变量的变化——这与仅有相关关系不同,后者可能源于第三个混淆变量。
解题步骤
- 第一步——询问该变量测量的是什么:类别(定性)还是数量(定量)?
- 第二步——若是定性:检查类别之间是否有顺序。无顺序→名义尺度;有顺序→顺序尺度。
- 第三步——若是定量:检查是否有绝对零点(意味着"完全没有")。无→等距尺度;有→比率尺度。
- 第四步——判断离散/连续:是计数独立值(离散)还是连续测量(连续)?
- 第五步——识别变量角色:被改变的"原因"是自变量,被测量的"结果"是因变量。
- 第六步——在断言因果关系之前,确认没有能解释两者关系的第三个混淆变量。
例题解析
例题 1: 识别测量尺度
题目: 研究者记录了每位参与者的:(甲)电话号码,(乙)柔道腰带级别(白、黄、黑),(丙)摄氏体温,(丁)体重(kg)。请对每项进行测量尺度分类。
解答:
- (甲)电话号码是识别标签,无顺序或数量意义——名义尺度。
- (乙)腰带级别有明确顺序,但等级间距无法量化——顺序尺度。
- (丙)摄氏温度:间距相等,但零点是人为规定的(\(0^\circ\) 并非"没有热量")——等距尺度。
- (丁)体重:有绝对零点(\(0\) kg = 没有质量),比值有意义——比率尺度。
答案: 依次为:名义尺度、顺序尺度、等距尺度、比率尺度。
例题 2: 离散还是连续
题目: 对每个变量进行离散或连续分类:(甲)一个人每天发送的消息数,(乙)100米跑的时间(秒),(丙)公共汽车上的乘客人数。
解答:
- (甲)消息数是可计数的整数,不存在"3.5条消息"——离散。
- (乙)跑步时间可以以任意精度测量(\(11.43\) 秒、\(11.431\) 秒)——连续。
- (丙)乘客人数是计数的整数——离散。
答案: 依次为:离散、连续、离散。
例题 3: 自变量与因变量
题目: 某研究考察夜间睡眠时间是否影响第二天的考试成绩。自变量和因变量分别是什么?
解答:
- 问一问:谁是我们怀疑会产生影响的因素,谁是被测量的结果。
- 睡眠时间是影响因素——因此它是自变量。
- 考试成绩是由睡眠引发的被测量结果——因此它是因变量。
- 记忆技巧:因变量"依赖"自变量,正如成绩依赖睡眠时间。
答案: 自变量:睡眠时间。因变量:考试成绩。
例题 4: 因果关系还是混淆变量
题目: 研究发现鞋子尺码越大的孩子阅读能力越强。鞋子尺码会导致阅读能力提高吗?最合理的解释是什么?
解答:
- 表面上鞋子尺码与阅读能力之间存在正相关,但这并不意味着因果关系。
- 寻找能同时解释两个变量的混淆变量。
- 年龄是混淆变量:年龄较大的孩子既穿更大的鞋,阅读能力也更强。
- 结论:这是一种虚假相关(仅有相关关系),鞋子尺码与阅读能力之间并无因果关系。
答案: 不是因果关系;年龄是解释两者关系的混淆变量。
例题 5: 各尺度允许的操作
题目: 一名学生通过编号(蓝色=1,绿色=2,棕色=3)计算眼睛颜色的"平均值",得到2.1。这个计算有效吗?
解答:
- 眼睛颜色是名义尺度变量——数字只是识别标签。
- 名义尺度唯一合法的操作是计算频数(以及确定众数),不能进行算术运算。
- 计算均值至少需要等距尺度,在该尺度上各值间距相等且有意义。
- 因此 \(2.1\) 没有意义——不存在"平均颜色"。
答案: 该计算无效;名义尺度变量不能计算均值。
常见错误
✗ 常见错误: 从相关关系的存在推断因果关系("X与Y相关,所以X导致Y")。
✓ 正确做法: 相关不等于因果。要主张因果关系,需要排除混淆变量,最好通过只改变自变量的受控实验来验证。
✗ 常见错误: 混淆等距尺度与比率尺度,对摄氏温度计算比值("\(30^\circ\) 是 \(10^\circ\) 的三倍热")。
✓ 正确做法: 比值只在有绝对零点的比率尺度上有意义。等距尺度(摄氏度、公历年份)的零点是人为规定的,因此只有差值有意义,比值没有意义。
✗ 常见错误: 将子女数分类为连续变量(因为是数字),或将身高分类为离散变量(因为记录为整数)。
✓ 正确做法: 关键在于是计数(离散)还是连续测量(连续),而不在于是否为数字。子女数是计数,因此是离散的;身高是连续测量,因此是连续的,即便取整记录也是如此。
练习建议
- 提示——尺度从弱到强的顺序:名义 \(\to\) 顺序 \(\to\) 等距 \(\to\) 比率。较高级别的尺度包含较低级别的所有能力。
- 提示——总可以从高级尺度降低到低级尺度(例如将身高划分为"低/中/高"),但反向则不行——降级会丢失信息。
- 提示——判断离散/连续,问自己"中间值是否可能存在?"2.5个兄弟姐妹不可能(离散);2.5 kg 是可能的(连续)。
- 提示——在实验中,研究者控制自变量并测量因变量;调节变量(Moderator)会改变两者之间关系的强度。
总结与关键公式
测量尺度:
| 尺度 | 特征 | 示例 |
|---|---|---|
| 名义 | 无序类别 | 性别、颜色 |
| 顺序 | 有序但间距不等 | 评级、名次 |
| 等距 | 间距相等,零点任意 | 摄氏温度 |
| 比率 | 绝对零点,比值有意义 | 体重、时间 |
- 离散 = 计数;连续 = 测量。
- 自变量 = 原因;因变量 = 结果。
- 相关 \(\ne\) 因果——警惕混淆变量。