到底要不要用反向题?

在不久前的一次问卷调查中,某些题目我采用了反向题(reverse coded items)的形式。但是在之后的数据分析中发现,使用反向题似乎会降低用户对所测量的指标的评价。这个结果不难解释——存在“默许偏差”,用户更倾向于同意所有题目或者作出积极的评价。

似乎反向题的使用带来了一些问题。那么到底要不要使用反向题呢?什么情况下要用反向题呢?

首先明确一下反向题的定义。并不是说包含否定的表述就是反向题。设计问卷的时候每一个题目都是为了测量某一个构念(construct),如果一个题目的高分代表该构念的水平较高,就是正向题;反之就是反向题。

为什么要用反向题

被试对问卷的反应是存在偏差的。其中比较关键的是:

  • 默许偏差(acquiescence bias),被试更倾向于同意所有题目或者作出积极的评价。
  • 社会赞许偏差(social desirability bias),被试倾向于按照社会所期许的方式作出反应。

由于反应偏差的存在,通过问卷收集到的数据不能完全反映客观现实。

除此之外,还可能存在一些比较 “粗心”的被试,不认真看题目做判断,而是根据某种习惯倾向作出回答。尤其是当问卷设计比较单调或重复时,被试持续看到相似度高的题目,会容易感到疲倦,因此也比较可能采取这种偷懒的方式。

因此在心理测量学领域中,很多学者开始建议正反向题混合使用的方法。其好处在于:

  • 能够帮助筛选出不认真作答的被试。如果不论是积极的还是消极的描述,被试全部都选择了认同,就可能存在不认真回答的嫌疑。
  • 正反向题混合会消耗被试更多的认知资源,因此可以让被试更加投入,减少习惯反应。
  • 不管是对默认好评还是默认差评的被试,正反向题混合都可以降低这种习惯反应的影响。

对反向题的质疑

反向题与正向题测量的常常不是同一种特质。很多量表进行因子分析的时候会发现反向题很容易自己聚合为一个因子。 比如,Widhiarso使用成就动机量表(Achievement Motivation Scale)测量了大学生的成就动机,在因子分析中发现有一个因子全部都是反向题[1]。这说明这个因子的出现可能是由于方法的相似性而不是题目内容的相似性。

反向题对测验的信效度的影响仍存在争议。Weems等发现采用正反向混合的题目会降低测验的信度[2]。Sandoval和Lambert发现在教师评定中将正向题混入反向题会提高信度和效度[3]。Schriesheim和Hill在大学生被试中发现使用反向题能提高测验效度但没有提高信度[4]。

反向题容易导致误解。相对于正向题来说,反向题的表述相对比较难理解。并且在题目含义的解释上可能存在问题,比如,我没有不开心≠我开心。

教育水平/语言能力是一个调节变量。教育水平和语言能力低的人在阅读反向题时可能存在困难,为测验带来了额外的影响因素。

我们无法确定被试是否正确理解了题目。被试确实理解了反向题吗?或者他们根本忽略了题目中的“不”之类的字眼,直接按照正向题的理解去做的评价?

反向题的使用建议

如果使用反向题,需要遵循下面的建议:

  • 反向题适用于需要求和的量表。因此对于每个题目测量一个独立维度的量表,不应使用反向题。
  • 平衡使用正向题和反向题。
  • 反向题目要尽量做到语义清晰,符合日常的语境。有观点认为反向题之所以常常成为独立的因子,可能就是因为有些反向题设置不符合自然语境。
  • 不要包含双重否定。双重否定会增大题目理解的难度。
  • 考虑目标被试的教育水平是否能够理解反向题。

不一定要用反向题

使用反向题是为了减少反应偏差,但是如上所述使用反向题也有很多弊端,通过其他方式可能也能达到减少反应偏差的目的。

  • 使用长度较短的量表。对于一个单维的构念,用3-8个题目去测会比较好[5][6],这样被试比较不容易产生疲倦。

  • 对题目顺序随机。不让被试看到题目呈现出相似的模式,就不会太掉以轻心,会更诚实地回答问题。适用于答案是同样类型的时候,比如全部都是5点李克特量表时。但是不要把不同选项类型的题目混合在一起,这会让被试感到混乱。


参考文献
[1] Widhiarso, W. (2012). Reverse scored items, should we use it on psychology scale or not?. Social Science Electronic Publishing.
[2] Weems, G. H., & Onwuegbuzie, A. J. (2001). The impact of midpoint responses and reverse coding on survey data. Measurement & Evaluation in Counseling & Development, 34(3), 166-176.
[3] Sandoval, Jonathan|Lambert, Nadine M. (1978). Reliability and validity of teacher rating procedures in the assessment of hyperactivity as a function of rating scale format. Behavior Rating Scales, 30.
[4] Schriesheim, C. A., & Hill, K. D. (1981). Controlling acquiescence response bias by item reversals: the effect on questionnaire validity. Educational & Psychological Measurement, 41(4), 1101-1114.
[5] Bagozzi, Richard P. and Hans Baumgartner (1994), “The Evaluation of Structural Equation Models and Hypothesis Testing,” in R.P. Bagozzi, editor, Principles of Marketing Research, Blackwell Publishers, Cambridge, MA (1994), pp. 386-422.
[6] Green, Paul E. and Vithala R. Rao (1970), "Rating Scales and Information Recovery: How Many Scales and Response Categories to Use?" Journal of Marketing, 34 (July), 33-39.

推荐阅读更多精彩内容