Non-probability样本:

高质量研究的新兴方法和模式

参与率下降, 再加上FCC立法规定如何拨打手机, 而固定电话工作电话号数的下降也导致了电话研究费用的急剧增加.

在彩票平台的《彩票平台》白皮书中, 彩票平台记录了对电话研究质量的深度实证研究发现, 尽管参与人数大幅下降, 电话研究的质量与20年甚至30年前一样高.

选举民意调查研究发现,预测普选的错误率在一代人的时间里一直没有改变, 可能是在20世纪40年代末政治投票出现之后.  除了某些州的失败, 与2012年或2008年相比,大多数全国性民调机构对2016年普选的预测准确度更高.  现代研究发现如果有什么区别的话, 由于电话调查中的错误而产生的偏差并没有增加, 但下降[2].

也就是说, 参与率的下降是不可否认的, 再加上FCC立法规定如何拨打手机, 而固定电话工作电话号数的下降也导致了电话研究费用的急剧增加.  而调查研究公司尚未公布精确的数据, 过去十年里,电话调查的费用可能翻了一番,这样说不无道理.

而许多消费者已经消化了增加的成本, 其他人在这方面遇到的困难要大得多, 不得不转向成本更低的替代品.

基于概率的互联网面板是一个可行的替代方案.  然而, 它们往往体积较小,因此对低发病率人群的研究没有用处, 或小区域, 或者需要大量样本的研究, 或者是每月跟踪的研究, 每周, 还是不断的Fielding.  这就留下了很多不适合概率面板的研究.

第二种选择当然是不可能(方便,或选择)的互联网面板.  虽然很多市场研究已经使用这种方法超过10年了, 社会科学研究人员和民意调查专家几乎普遍避免使用它们.  这是有原因的:每一个致力于评估通过非概率面板获得的数据的质量和准确性的第一线盲审研究项目都发现了严重的错误, 偏见, 和方差[3].  而非概率小组可以得出准确的估计, 依赖于这样的结果就像掷骰子并希望得到两个6 [4].

因此,如果, 对于一个给定的项目, 电话是负担不起的, 概率面板不太合适, 而依赖非概率太冒险了, 一个善意的调查研究者应该做什么?

有选项.  手机彩票平台, 与马萨诸塞州大学波士顿分校(University of Massachusetts-Boston)的数据科学团队合作,在社会科学研究中使用非概率样本进行了两年多的研究和开发.  在一种方法中,可用的伴生数据被用来建模和校准非概率样本.  第二种选择是一种真正的混合方法,它混合概率和非概率样本,以获得一个完全具有代表性的统一样本.

正如许多研究人员发现的那样, 没有“饼干切割器”方法可以使非概率样本代表[5].  事实上, 过去几年在美国民意研究协会(American Association for Public Opinion Research)会议上发表的一系列论文发现,“普遍的解决方案”,无论采用何种方法(可以包括样本匹配, 倾向权重, 和/或传统的校准/排序)在许多调查中都无法减少偏见.

需要一种方法相对普遍的解决方案, 但对任何特定的研究都是量身定制的.

手机彩票平台/马萨诸塞大学已经开发了四种不同的方法来减少非概率样本的误差和偏差.  首先是利用机器学习技术生成一种基于概率金标准基准的非概率样本选择的样本匹配方法.  第二个模型减少了由于非概率样本的覆盖误差对不访问互联网的人造成的偏差.  这些是包罗万象的, 偏见的预防性解决方案, 但众所周知,在这个过程中通常不会完全消除偏见.  而有用的, 第三和第四种方法是彩票平台的主要解决方案,已经在许多项目中得到了成功的应用.

第一种是通过非概率面板收集所有数据的研究.  在这种方法中, 彩票平台利用手机彩票平台 Omnibus[6]在一个简单的随机抽样电话调查中收集关键基准, 然后用这些基准来建模和校准非概率调查.  如何执行这种方法的细节取决于之前的数据是否存在, 但通常情况下,彩票平台会在研究之前获取所有可用的信息, 结合Omnibus数据,执行机器学习技术,以识别关键的交互变量,并利用这些交互重新校准非概率样本.  这种方法非常有效, 但其有效性取决于数据的一些特征.  假设这项研究是100%的非概率数据, 这被认为是这里提出的两种解决方案中成本较低但质量较低的一种.

最后,更高质量的方法是真正的混合研究.  简而言之, 这个研究中20%到80%的数据是通过非概率面板收集的剩下的是通过电话样本收集的.  在这个光谱的一端, 其中80%是通过RDD电话(或概率面板)收集的, 彩票平台发现,几乎没有任何情况下,彩票平台的建模技术不能确保数据基本上具有100% RDD电话调查的代表性和准确性……在几乎所有情况下,成本都有适度但显著的降低.  在另一端, 其中80%是由非概率样本收集的, 造型必须更加努力才能获得代表性, 但是,考虑到数据中的一些关键特征,例如相对较大的样本量和建模中使用的变量与样本类型和数据中的其他变量的有效性,这可能是相当成功的. 这种方法大大降低了成本, 比全rdd的电话调查方法高出50%.

该混合方法利用机器学习方法,不仅识别关键的主要变量,还识别变量之间的关键交互作用,以评估使用这些变量和交互作用进行高级校准和建模的有效性.

这种方法利用了大数据分析技术的最新水平,为将概率和非概率数据组合成一个通用样本提供了可能的最佳解决方案.  目标不是让非概率样本具有代表性, 而是让它“贡献”与概率样本一致的代表性.  在执行这种方法的研究中, 彩票平台发现金标准概率和杂化数据之间的差异在最坏的情况下只有少数少数的例外.  再一次, 这一程序的有效性将取决于该方法和数据的一些特征, 但总的来说,对于那些需要在保持数据质量的同时降低成本的人来说,这是一个可行的解决方案.

彩票平台激起你的好奇心了吗? 好! 彩票平台总是很乐意进一步讨论彩票平台的前沿方法. 让彩票平台帮助你为你的研究项目找到最好的解决方案.

脚注:

[1] http://fivethirtyeight.com/features/is-the-polling-industry-in-stasis-or-in-crisis/

大卫·杜特温和特伦特·布斯柯克(2017). 电话抽样调查:挚爱的人或即将离去的人? 回复率下降时代的调查错误趋势.  在同行评审.

[3] See Chiang and Krosnick, 2009; Dutwin and Buskirk, 2017; Malhotra, & Krosnick, 2007; Walker et al, 2010; Yeager et al., 2011.

[4]虽然这似乎有点牵强, 考虑到Walker等人发现17个网页版块中只有两个能够准确评估美国的吸烟率.S. 在几个百分点之内, 而其他人的吸烟率几乎是全国真实患病率的两倍(33%比17).5%)

[5]安德鲁·W. Mercer; Frauke Kreuter; Scott Keeter; Elizabeth A. 斯图尔特(2017). 非概率调查的理论与实践:因果推理与调查推理的相似性. 舆论季刊,81 (S1), 250-271.

[6] http://www.alionimportexport.com/omnibus

想要更多的信息?