问卷设计中量表题选项数目对数据结果的影响

阅读 3  ·  发布日期 2017-01-03 15:34:50  ·  JR

作者:腾讯CDC用户研究与设计中心 Arlen

导语 李克特量表(Likert-type scales)是问卷调查中常见的问题类型,用以测量受访者的态度、想法等潜在特质。而量表刻度(选项数目)是否会影响受访者答题的意愿与可信度?或是对数据结果造成影响?本文尝试通过实际案例研究得出答案。

1. 研究背景

李克特量表(Likert-type scales)自1932年由李克特提出后,己被广泛运用于各层面的问卷调查。李克特量表的问卷设计是让受访者直接在问卷上勾选单一的数字答案以表达受访者对问题的反应。例如:受访者从1-5中勾选一个分数来表示自己对某项事物的满意度。而研究者将受访者的答案以等距的数值转换以进行数据分析。此一方法主要目的为了解受访者对研究主题之反应态度,且假设每一个选项之间具有同等的量值。
李克特量表希望能将受访者的态度、想法等潜在特质直接以数值的方式测量。潜在特质是指受访者对问卷题目的真实想法,如满意度,这样的特质一般不能以长度、重量、数量直接测量,而由受访者主观地在量表上挑选符合的程度。
量表刻度(即选项的数目)的选择,是否会影响问卷调查的统计结果?在过去量表刻度的研究上,并未产出一致的意见,但5刻度(1分到5分)一般被认可是较佳的测量尺度:往下减少刻度可能无法充分表达受访者的潜在特质差异,往上增加刻度可能受访者没有足够的辨别力去区分。
有时当我们选择在问卷中使用10刻度(1分到10分)的李克特量表,而不是常见的5刻度时,经常会受到一些挑战:
1. 刻度过多(如10刻度),受访者是否能判断各刻度表达的潜在特质差异并做出回答?
2. 刻度过多是否会影响受访者答题的意愿与可信度?
本次研究意在尝试回答以上问题。


2. 研究计划

为了回答以上两个问题,设计了一次简单的问卷研究,问卷题目选择由心理学家 Michael Argyle 和牛津大学的 Peter Hills 以贝克忧郁量表 (Beck Depression Inventory) 为基础所编制出的牛津幸福 (快乐) 量表 (Oxford Happiness Inventory, OHI),选择这份量表的原因主要有两点:
1. 主题与个人相关,较不受外界因素干扰(如问卷投放时间、平台等)
2. 题目多,可观察是否在答题意愿与可信度上有差异?(不含人口属性题为29题,一般问卷设计建议控制题目在20题左右)
将快乐量表分别编制为5刻度及10刻度两份问卷,在第三方网络问卷平台上分别对20000名随机用户定向投放,投放及回收时间相同。问卷内容可参考https://wj.qq.com/s/1000337/7530


3. 研究结果

3.1 样本属性比较

首先,可以看到两份问卷的回收样本在数量及组成上具有相当的同质性(图1-图4),基本可以排除因样本差异对数据的影响。

图片

                             图1. 问卷回收样本数

图片

                            图2. 问卷回收样本性别比例分布

图片

                            图3. 问卷回收样本年龄比例分布

图片

                            图4. 问卷回收样本地域比例分布


3.2 问卷答题情况比较

接着我们对答题的结果进行一下比较(表1),10刻度问卷答题耗时的均值与中值皆比较高,对受访者来说,10刻度量表题的作答还是比5刻度需要多一些时间。

图片

表1. 5刻度及10刻度问卷答题耗时

但是在受访者的主观判断中,5刻度问卷与10刻度问卷的作答难易程度并没有显著差异(标准差分别为1.155、1.158,此题两份问卷皆为5刻度量表题)。

图片

图5. 问卷回收样本地域比例分布

3.3 问卷内在信度比較

接着对问卷题目的内在信度做个检验,若是10刻度会影响受访者答题的意愿与可信度,在内在信度上应该会有较差的表现。但由表2可以看到5刻度与10刻度问卷的内在信度并没有很大差异(alpha值0.935 VS 0.946),甚至10刻度问卷还高了一些;各题的信度表现也相当一致,没有出现问卷后面的题目信度下降的情形,表示5刻度或10刻度在这个题目数量(29题)下没有对受访者答题的意愿与可信度造成显著差异。

图片

                              表2. 問卷內部信度

3.4 主要题目结果比較

接着对最主要的数据结果进行比较,但是如表3所见,由于刻度上的差异,数据有着绝对值上的差异,不能很直观地比较出差异是否显著?

图片

表3. 問卷主要题目分数均值与标准差

所以我们采用Dawes(2008)的尺度数据转换法,将5刻度的数据转换为10刻度(如图6),并以平均数(mean)、变异数(variance)、峰度(kurtosis)、偏度(skewness) 来衡量数据的差异。

图片

转换后的结果比较如下表,所有题目分数的均值或标准差的差异都不显著。

图片

                                  表4. 問卷主要题目分数转换后均值与标准差

所有题目分数的偏度及方向,以及峰度的差异同样不显著(表5)。

图片

                                 表5. 問卷主要题目分数转换后偏度与峰度

通过以上数据对比,可以看到本次研究中,5刻度问卷与10刻度问卷所得之样本数据并没有显著差异。这也与Dawes的结论一致,5刻度、7刻度与10刻度的数据是可转换比较的,即它们的数据信度水准是相同的。

4. 研究小结

针对一开始提出的两个问题,通过实际的问卷数据比较,可以得到以下结论:
1. 量表刻度(选项数目)对受访者答题的意愿与可信度没有显著影响
2. 量表刻度(选项数目)对量表结果的没有显著影响
也就是5刻度或10刻度的量表在测量受访者的潜在特质上具有一样的效力。综合来看,高刻度量表的数据结果有均值较高、峰度较低的现象,类似陈妙华(2009)的研究中所说的“正向化”现象,如5刻度中的2分变为10刻度中的4分或5分。并且高刻度量表有着更高的内部信度,换句话说,高刻度量表是否反而更能够真实反应出受访者的想法与态度?此有待进一步研究。
但本次研究为网络问卷的形式,对于其他形式(如电话外呼、街头拦访)或不同主题的问卷是否适用仍需评估。


参考文献

Dawes, J. (2008) Do data characteristics change according to the number of scale points used? An experiment using 5-point, 7-point and 10-point scales. International Journal of Market Research, 50, 1, pp. 61-77.
陈妙华(2009)。李克特量表量尺奇数刻度转换研究。辅仁大学应用统计学研究所硕士论文,台北市。



标签:   问卷调查

为您推荐