为什么社会心理学研究不靠谱？（刘荻）

最近，心理学史上的一个著名实验——津巴多的“斯坦福监狱实验”被质疑造假。类似的事情也不是第一次发生了，几年前，另一个著名的实验——棉花糖实验也遭到了质疑。（棉花糖实验的被试是上幼儿园的儿童，实验者给他们每人一颗棉花糖，告诉他们，如果一段时间不把棉花糖吃掉，就能得到两块棉花糖。有些儿童拿到糖就直接吃掉了，有些能够忍住不吃，最后得到了两块糖。几十年后对这些被试进行回访时，实验者发现，那些能够忍住不吃糖的儿童长大后比直接吃掉糖的儿童成功。这个实验成为“情商”这个概念的来源。然而质疑者认为，实验没有很好地控制无关因素，直接吃掉棉花糖的儿童大多出身社会底层，父母也经常违背对儿童的承诺，因此这些儿童直接吃掉糖其实是适应环境的做法，长大后不如另一些儿童成功也是家庭出身导致的。）

在我看来这没什么奇怪的，网上流传的那些吸引眼球的社会心理学实验，绝大部分都不怎么靠谱，就算不存在有意造假的问题，其可重复性和生态效度（实验结果能否推广到现实世界，解释现实世界中的问题）也非常值得怀疑。我认为这可能是以下几个原因造成的：

第一是统计学方面。心理学研究需要用到统计学，而统计学通常需要数据符合正态分布。有些数据，比如人的身高体重等等，都是符合正态分布的。然而在社会领域，许多数据其实是不符合正态分布的。比如人的收入其实是负偏态分布（所以“平均收入”的说法可能会造成一些误导），人在社交网络上的好友数量是幂次分布（大部分人的好友很少，少数人好友极多），等等。对于这些不符合正态分布的数据，统计学就不太好用了，硬要用的话，出来的结果多半也不怎么靠谱。

第二是抽样方面。如果要做社会调查，如入户调查、问卷调查等等，为了确保受访者有代表性，我们通常需要用随机抽样的方法（有完全随机抽样和分层随机抽样等许多种方法）来选择受访者。（社会调查在中国遇到的困难包括研究者很难获得中国的人口统计数据，以及由于人口流动等原因，随机抽样抽中的人在实际调查的时候不一定能找得到。因此中国的许多社会调查其实都是不合格的，比如在几个大城市里调查几所大学的学生，就说是“中国青年政治态度调查”等等。）这种随机抽样成本相当高，因此在做心理学实验的时候，不可能用社会调查的方法来选择被试。心理学实验的被试，基本都是大学生。有人吐槽说，心理学家只研究大二学生和白老鼠（心理学研究也会对被试的性别、年龄等进行匹配，但通常不会特意挑选各种各样有代表性的人来当被试，这一点下文中还会提到)。心理学在这方面的假设是：人和人没什么区别，随便研究一些人就能代表所有的人。这一假设在有些方面是合理的，比如，如果你要研究人的眼睛是怎样看东西的，可能随便找几个视觉正常的人就行了，被试的社会阶层经济收入等等，大概都不会有什么影响。但是社会心理学研究就不是这么简单了，不同国家、种族和社会阶层的人在社会行为上可能有很大差异。美国心理学家乔纳森·海特把那些西方国家的、受过教育的、生活在工业化社会中的、富裕的和生活在民主国家中的人群叫做“怪异”（WEIRD）人群，认为这些人在道德观念上与世界上其他人有很大差异。绝大部分心理学实验的被试，都是这些所谓的“怪异”人群，他们能否代表全人类，其实是很值得怀疑的。

第三是实验假设方面。前面提到，心理学研究也会对被试的性别、年龄等等特征进行匹配。这通常是为了把这些因素当作需要控制的无关变量，而不是作为研究者感兴趣的自变量。为什么呢？因为自变量通常需要是一个研究者能够控制的变量，比如在实验中，我们把被试随机分为两组，给其中一组被试看“医生-护士”的单词组合，给另一组被试看“面包-护士”的单词组合，测量两组被试中哪一组的反应时比较短。这样才能证明自变量和因变量之间有因果关系。而被试的特征其实不是研究者能够控制的变量（拿性别来说，一名被试或者是男的，或者是女的，或者是其他性别；研究者无法让一名被试变成男的或者女的或者其他性别）。如果用被试的特征（如性别）来做自变量，把被试分为两组（一组男人、一组女人），实验结果发现两组被试之间确实存在差异，那么我们能否得出结论说，这种差异是由性别导致的呢？这样的结论恐怕会有循环论证之嫌。这样的研究其实属于相关性研究，无法得出因果结论来。（心理学家不喜欢相关性研究，因为相关性研究比实验研究不靠谱得多，很多数字之间都会有莫名其妙的相关性，比如全球变暖与海盗活动减少也有负相关。）本文开头提到的棉花糖实验，其实也有这个问题：儿童能否忍住不吃糖，是儿童本身的特质，并不是实验者操纵的结果。

这就造成了一个结果：社会心理学实验只能研究情境因素对人的影响，而无法得出任何结论说某种现象是由被试的“天性”或“特质”导致的。而既然一切都是由情境决定的，那么心理学实验室中的情境与现实世界其实有很大差异，因此研究结果能否推广到现实世界，解释现实世界中的问题，也就是很成问题的了。甚至有研究认为，人在特殊情境下会做出什么样的反应，与任何社会结构因素，如被试的阶级、教育、宗教和政治信仰，以及该人平时的表现都无关。有研究者对和斯坦福监狱实验相似的米尔格拉姆“服从权威实验”（实验者让被试充当“老师”，命令被试对犯错的“学生”施加强度越来越高的电击，观察有多少人服从命令把电击进行到底）的被试进行回访时，也发现了类似的问题：有些服从命令把电击进行到底的被试后来参加了反越战运动，有些反抗实验者的被试反而十足权威主义人格。

最后一个问题涉及怎样对待实验结果。好多人都嘲笑某些研究得出来的结论类似“自杀有害健康”或者“东西便宜了人就会多买”之类。其实研究得出这些结论不能算什么坏事——你要是研究出来个结论说自杀有益健康，那才真叫人头疼呢！我上大学的时候，有一次听某学者的讲座，讲座完了有学生提问：如果研究结果与自己的直觉相悖，你是相信哪个？该学者毫不犹豫地说相信自己的直觉。这或许可以说明，某些领域的研究并不比直觉更靠谱。另一方面，如果大家都像他这么想的话，与直觉相悖的研究结果可能就永远不会发表出来。社会心理学研究方面还有一个问题，那就是，像津巴多的斯坦福监狱实验和米尔格拉姆的服从权威实验这类吸引眼球的实验，一旦经过媒体广泛报道之后，实验结果就再也不可重复了——大家都知道在此类实验中应该怎样表现，以免遭受道德压力了。所以此类实验的可重复性都很差，但这并不一定说明实验本身有问题。

说了这么多，有人可能要问了：如果存在这么多问题的话，那么心理学还有什么用呢？呃，第一，你要学习了心理学，才能知道这些实验在哪些地方有问题啊。心理学最大的用处，大概就是能教会人批判性思维了。有研究指出，学习心理学之类社会科学的学生，批判性思维能力比学习人文、艺术、工程甚至自然科学的学生都要强。至于这个研究靠不靠谱，就由你自己来判断了。

第二，关于这些实验本身：我认为这些实验虽然存在各种问题，但还是有价值的。它们的价值并不在于得出结论，而在于充当丹尼尔·丹内特所说的“直觉泵”，启发我们的思维，给我们提供进一步研究的思路。

（文章只代表特约评论员个人的立场和观点）