研究方法的文章系列2

来源：百度文库编辑：神马文学网时间：2024/10/06 00:21:20

谢宇关于研究方法的系列讲演

一、社会科学与自然科学之间的三大差别
二、漫谈定量与定性研究方法
三、因果推理
四、研究设计和抽样理论的基础
五、忽略变量偏差和生态学分析
六、选择性、实验法和评估研究

一、社会科学与自然科学之间的三大差别

社会科学和自然科学是人类文化智慧的两大宝库，在这两个似乎对立的领域之间会有着什么样的关系呢？10月21日晚，在北大社会学系20年系庆“学术活动月”的系列讲座上，美国密歇根大学社会学系谢宇教授从社会学的角度阐述了他的观点。

谢宇教授首先提出，社会学的核心问题并非学术内容方面，而是致力培养人们的独立批判思考的能力。社会学研究方法的错误在社会学科中普遍存在，这就凸现了批判思维的重要性。我们首先应该明白什么样的知识应该吸取，什么东西则应该摒弃。接着，他提供了一个实例，从一个关于班级同学语言能力和数学能力强弱的相互关系的实验中，让我们带着批判色彩自己寻找实验的弊端和漏洞，并由此谈到了社会科学和自然科学两大领域的关系。

他说，我们首先必须承认两大领域之间的本质区别：一、本体论上存在根本差别。柏拉图把所认识的世界分成了两类，“永恒世界”和“变化世界”，他认为真正的知识就是对抽象的“永恒世界”的本质认识。自然科学便以发掘“永恒世界”中的真理为最终目的；而社会科学则是以了解“变化世界”的具体现实为最终目标。二、论上的焦点不同。自然科学的关注点可以称为“典型现象”，是一个完整独立的事物；而社会科学所关注的则是所有个案组成的状况，是小个体拼凑而成的大整体。三、方法论上的研究方式相异。自然科学可以寻求通过实验来隔离外来因素的影响；而社会科学只能运用一定环境下的所谓观察数据，这必然会受到外来因素的影响。因此社会科学方法论的复杂性在于不可排除的外来因素干扰。

谢教授还谈到了历史上对于社会科学研究做出突出贡献的人物。Quetelet将统计学上的平均值方法用于社会科学，称为“平均人”，在用传统科学定义对社会科学做出尝试的前提下奠定了社会物理学的基础。达尔文的人口思维堪称社会科学的起源。他提出自然选择的理论，并强调了“差异”这一社会

科学领域广泛的现象是自然选择的基础，是科学研究的对象，某种意义上说是世界的本质。这是对传统的典型科学思维的有力挑战。而达尔文的表弟Galton 则明确地把人口思维引入了社会科学，认为应该关注“差异”和“协同差异”的重要性，并提出两个相互影响的事物间存在相关性和回归性，其关键便是“差异”的存在。

他总结指出，典型思维和人口思维便是当前分析社会科学和自然科学关系的基本模式。另外，他还谈到了实证方法的观点：社会科学与自然科学没有根本差异，社会科学可以与自然科学一样做到严格精密，但这一观点是应当被否定的。

二、漫谈定量与定性研究方法

注：本文系2005年6月19日，谢宇教授与北大社会学系学生座谈会。

谢宇教授：美国艺术和科学院院士，台湾“中研院”院士。

马戎：今天我们请到了密歇根大学的谢宇教授，来跟我们的学生面对面，今天上午不是一个正式的讲座，是一个座谈。可能不需要太多介绍谢宇教授的情况了吧？他是我们系的老朋友，在02年11月份，是咱们系成立20周年搞的一个学术活动月，那个时候谢宇教授在我们这里待了一个月，讲了六节课，给了我们的活动很大的支持。他长期以来在方法论、中国研究，在各方面都有很多建树，他也希望进一步了解我们学生的想法、学生对社会学方法的一些理解，以及未来学习的一些打算。好，那我们开始，请。

谢宇：有方法方面的可以问，其他方面的也可以问，美国的教学，美国的学科发展啊，等等。随便吧。我先问一下，你们有多少人上过我的网站？没人上过吧？我有一个网站，就是yuxie.com，不是什么地方都可以上，好像安全部有的还没有全部开。国家安全部把以前一些网站，密歇根的网站都封掉了。被封杀了，不是每个地方都能上的。我自己的一个domain，我的教学等一些情况都在网上。随便问吧，你们有什么问题，要是没问题，你们也不会来了。

生：老师，我想问一下那个定量和定性这两种方法您怎么看。比如说现在社会学研究范围之内分成两派，一派就是在《社会学研究》这样权威的杂志上发表文章，基本上就是抽样、问卷，然后统计研究，这样子的思路，就是定量的分析。另外一个就是出专著，他们通过一本本书来说明自己偏向于根历史学的结合，通过对文本的一种叙述哇，就是叙述性的一种，质的分析吧。我就是想问一下，在您的研究中或者在您的取向中，您认为这两种方法，不说应该偏向于哪一个吧，就是说您怎么评论这两种方法？怎么应用？怎么取舍？

据我所知，似乎就是在美国吧，应该是定量比较为主，您能评价一下吗？

谢宇：哦，这个呢，定量和定性的矛盾呢，自古就有，就是从19世纪开始就有，已经争论很多年了。我觉得呢，很多，争这个东西并不是很有意义的东西。因为，我会讲到为什么。啊，社会科学很大的难度哇，李建新知道，我讲过很多遍的，最大的难度在于异质性。就是说每个家庭和每个家庭不一样，每个人和每个人不一样，每个地区和每个地区不一样。你同样的人同样的地区同样的团体，它随着时间的变化社会情况的变化会变化。所以这个异质性非常强。那异质性强有很多困难。一个困难就是说，sampling-ment，异质性这么强，比如说中国变化这么大，这么快，地区之间这么差，作为人与人之间，在同一个地区同一个环境他也不一样。那假如说有的人调查了一个地方，两个地方，一个人，两个人，就说中国是怎么样，中国是怎么样。也就是说我昨天还和我的一个朋友讲，到底你说西周时候是怎么样，那我们知道的历史，一部分主要是中原的。那其他的，它可能没有文字记载，也可能没有陪葬的习惯，它很多东西没有保存下来，我们就不知道，我们就只能猜想，现在可能有其他的一些遗迹出来。我的意思是说，异质性强了以后，你看到什么东西，可能会导致你的结果。这就是说定性的有危险。定性的局限性并不就是说它的定性。

定性实际上是很好的，描述性的，实际上定量的很多也是描述性的。比如说我们做长期的跟踪，有很多都是描述性的，比如说美国的离婚率增加，婚姻的这个年龄增加，还有同居的人增加，等等，很多都是描述性的，也是定量的，也是描述性的。很多，一个人的变迁，你小时候怎么样，我们知道你什么时候生，生下来多少磅，你什么时候上学，这也是描述性的。基本上也是定性的，不需要用统计的方法。还是可以把你的成长史讲清楚。最大的缺陷，也就是说定性，它个案做的可能比较少。做的比较少，就是说到底它的代表性，就有的时候受到一些威胁。到底你讲的这个村庄，是中国的，就比如说一家人的一个村庄，到底能代表中国什么层面，它总要有一个局限性。这个局限性呢，就使得你是不是能够，就是一般的定性，就是你局限性的一个样本，比如说长处在什么地方？长处就在于把它的逻辑关系讲清了。但它不一定有代表性。但它的逻辑，社会变迁的基本理论和过程，可能和其他一样。比如说最简单的讲，比如说讲经济学的吧，经济学它有一个理论，就是说婚姻要有经济基础，特别是男性要有一定的基础要求。没有经济基础就不和你结婚，结婚是有了经济基础以后保持的一个消费行为，实际上生孩子是一个消费行为，当然也可能是投资行为。那这样的基础，这样的理论，可能在不同的地方，它是不一样的。因为它的标准不一样，什么经济基础，以前都要讲八大件，我们小时候要电视机或者什么，现在不够了，要什么席梦思，房子，汽车。所以，在各个不同的地方、不同的阶层，它可能表现不一样。所以，假如说你找了一个定性的，找了一个个例，你把为什么结婚，结婚的经济基础，这些东西搞清了，但你可能是把这个关系搞清了，但是你并不能知道它是什么样的基础下才能结婚。因为不同的社会结构、不同的地区、不同的人，可能对这个经济基础的要求可能不一样。

所以都有缺陷。Qualitative最大的缺点是它的样本小，它必须有代表性，所以选样本特别重要。你怎么理解这个内容，就是interpretation也很重要。而quantitive有一个好处就是我们可以用科学的方法来做一个样本，可以控制样本的质量，quantitive最重要的呢，我觉得就是它能看到差异性。比如说我们刚才讲的经济对婚姻的影响，并不是每个人的影响都是一样的。就是同样的地方，就是有的人在乎有的人不在乎。有的人可能要求高有的人可能要求低。所以我们把这个差异视为很重要的研究对象。假如是qualitative，它就一个案例，就不可能知道差异性在哪。这是最重要的一个东西，就是说，做quantitive可以把差异性搞清楚。地区与地区的差异，家庭与家庭的差异，文化背景、教育水准的差异，人的观念对个人的行为的差异，等等，它都可以做出来。相对来讲，刚才回答第一个同学时也提到，quantitive可以避免一些意识形态的一些先入为主的偏见。这也是好的方面。还有一个呢，就是quantitive是可以训练，可以教你，有一套方法，上四五门课，跟老师可以学很多东西。而qualitative呢，很多东西是要凭直觉。凭直觉呢，当然也有好的，可以做的很好。但很多程度上，我是不赞成年纪轻的人去做。因为做这个呢，你动不动就想做世界水平，动不动你就想出大师，动不动觉得我马上有悟性，我什么都能理解。但危险的东西，就是说你可能先入为主了。大家都想做大师，结果公说公有理，婆说婆有理，最后谁有理呢？谁的地位高、职位高，谁有理。所以这个呢也是有危险的，造成大家不统一的观点。我们在美国当然是quantitive占主流，这个是对的。但qualitative现在也蛮多的。现在我在american sociology review做副主编，他们讲，通常的一个事情就是qualitative和quantitive都有好有坏，文章也有好有坏，这个是差异性，很重要。但是quantitive的文章，定量的文章，一般的好坏，可以大家都同意。比如说，我找三个人去评价，大家都能够说这个是不好的，说不好大家都说不好，说好大家都说好。基本上意见相同，就是有一个衡量标准。相对来说，比较容易看。不好的，马上就能够看出来。我看两页，我就知道这个是垃圾，不好。好的，我一看就知道，好。就是说，比较容易看。但qualitative的东西呢，他们意见就会很分歧。好的，很多人说不好，大家都各有山头。衡量标准也比较差。就是跟它的个案和背景有关系。

还有一个，就是中国来讲，quantitive很需要，很缺，几乎是空白。所以呢，这次我们在北大，主要是做quantitive，计量社会研究室。并不是我认为只有quantitive才能做社会学，而是说中国这方面中国是空白。假如说中国社会学想发展，这个方面就一定要发展，否则的话，就跟世界的社会学水平相差很大。所以呢，从中国的需要来讲呢，我觉得，quantitive是很需要。

还有一个是数据的问题。美国的数据是公开的，各大学的所有学生，不是自己搞调查，而是用以前人家做好的调查，再做一些细的东西。这些数据在中国还没有成体系。所以学生自己收集数据哇经常是不可能的事情。所以很难用。也有这个方面的原因。还有整个风气呀，怎么做学问，老师对学生的影响，等等。所以，种种原因，中国的计量社会学没有产生。在这种情况下，强调quantitive和qualitative的什么分歧，我认为是没有意义的。因为中国基本上没有quantitive的东西，你就谈不上两者有什么竞争的问题。

比如说，据我了解，这边做博士论文的，量化的很少。我的学术基本上都是量化的。所以这里要有一个好的平衡点。都有好的地方，都有缺陷。

生：我的一个问题还是关于定性的和定量的。有一本书上说，定性的呢，它本身是一个分析的过程，也是一个理论生成的过程。而定量的结果呢，它往往就是一个具体的经验总结，不容易抽象到理论层面上。

谢宇：这个观点我绝对不赞成。

生：嗯，还有一个问题

谢宇：你说吧

生：就是您怎么评价清华大学孙立平老师所提出的“过程——实践的分析方法”？

谢宇：我对孙立平老师的研究没有做过研究，所以不能评价。第一个评价我是绝对不赞同的，这是对定量的一个误解。就是说好的量化，绝对是一个思维的过程。当然有一些，好象就是经验公式，就是盲目的。有的不懂量化的人，就认为定量就是人家数据收集好了，你只需要计算机，买个软件，什么东西就出来了。假如这么便当的话，你们自己买软件就好了，我出钱，看看你们能写出什么样的文章来。这是很幼稚的想法。量化是很难的。所以说真正量化做得好的人，做的文章出成果的人，他才有权利讲这样的话。实际上很少，我讲的中国目前这方面基本上是空白。就基本上没有人能讲这样的话。因为他没有真正做过很好的量化的工作，他不知道是怎么样的过程，这个过程是很难的。

我们是跨学科的，我们用的东西很多，像刚才说的经济学，它有非常理论化的东西。它是思维推导、逻辑推导，不叫数学化。我们相对来讲不是很数学化。好的研究它一定有很好的理论前提，理论就包括了过去的经验，把理论和经验分割也是不好的、不应该的。理论应该是过去的经验的一个积累，一个提升。同时，又为以后的经验提供了一个基础。它们不断的提高。所以，把这个定量作为经验、把定性作为理论，这样的思考，我觉得是很幼稚的。我觉得这样的人对于定量并没有多少了解。提出这种观点的人对定量就是没有了解，只是一种偏见而已。

生：但是您看我们这边用的主要一本教科书是艾尔•巴比的，研究方法，

谢宇：艾尔•巴比有同样的问题，他自己没有做过定量研究。那个书我当然看了，我也是里面编委的成员，我看了这个书就讲了，上面说艾尔•巴比是一个著名的社会学家，他的这个教科书写的很好，我也用这本教科书。但是他不是一个做研究的社会科学家。他没有做过研究，他一辈子主要是写教科书。他这个人非常聪明，教科书写的非常好。但他并不是一个搞研究的人，所以他没有资格讲这样的话。当然这也不是他的书的一个侧重点。他最早的书是81、80年代的，他以前的书没有这样讲。后来呢，这个大概是第七版还是第八版才加进去的。为什么加进去呢？美国也有这个争论，就是定量和定性的争论。争论到后来呢，就是搞定性的势力很大，所以呢，就找一些理由为什么要作定性，所以这个呢是找的理由而已，这个可能对理论的提升有关，但这个并不是很极端的。我觉得这话讲得有一点过分。他不是做研究的。我从来没有看到他做过研究。艾尔•巴比在这儿我也会这么讲，无所谓。

生：我们做的定量研究吧，就是最简单的数据分析技术，基本上不包含什么理论。您能不能举个例子说说做定量研究的难处在哪里？

谢宇：难在什么地方呢，就是定量研究有三个脚，这三个脚缺一不可。最重要的一块实际上不是统计，是conceptualization，就是把这个问题想清。这个想清呢，就是research design，就是这个事情到底是怎么回事情，这个就是理论的发展。就是要把这个问题呀要能够想清楚。想清楚了呢，你才能够有一个统计的模型跟一个conceptualization，跟一个概念化的东西相联结，这个是最缺乏的，最难的。你有了这两个，有了conceptualization，有了统计和数据，第三个是从数据和统计到结果。这三个都是平行的。就是说这三个是同时进行的。所以很多人只知道做第二个和第三个，怎么弄数据，怎么一个先进的模型，得到一个结果。它没有conceptualization，这样做是没有意义的。所以难就难在哪里呢？难在一，很多人只有一块，没有两块，甚至不知道要做三块。有的人只知道一个方法，他知道模型和计算机，他认为统计方法和计算机模型学好了，就好了。这也是错误的。还有人说只知道结果，我已经知道了。我知道中国社会是什么样的情况，我根本不需要什么统计。有些人真的很聪明，知道中国的事情。我生在中国，长在中国，我在中国生活这么多年，我比你谢宇知道得多。但是可能他比我知道的多，我知道的很少，但问题是，他知道的和别人知道的不一样。所以这三者之间的关系是一个辩证的关系，是一个同时发展的关系，所以难就难在它是三者的统一。就是说你的conceptualization和research design和你的result三者要吻合。

我们讲文章好是什么好，哦，就是，我们并不讲这个文章好不好这样的话，我们讲一个好的文章是讲tight，“紧”，就是“紧凑”。这个“紧凑”就是三方面哪衔接在一块，就是三者越紧越好。你的问题的说明，conceptualization，和你的research design，你的设计，以及你的结果，三者要很紧。越紧越好。有的研究这三者是分开的，就是它假如问题是一个层次的，它的设计是另一个层次的，它的结果又是另外一个层次上的。这就是“散”。它可能这三者都是对的，可能它的理论说明是对的，它的设计也是对的，它的结果可能也是对的，但是他们三者不衔接在一起，这个文章就不太好。因为这个文章的一块根本不需要另一块。都是对的，但拼在一起，也是不好的文章。所以，好的文章，就是这三个方面要衔接在一起，就是三个轴哇，要抵在一起，要平衡。要把它们tight。这个是很难做到的。美国的学者也一样，难就难在把这三者能够紧凑地衔接在一起。这是难的。不是说有一个就行了。有的人只知道计算机，有的人只知道收集数据，有的人只知道对中国的理解，但都不够，就是把这三者，换句话说，就是你的结果要是没有你的research design，没有你的conceptualization，就不能产生的。要做这样的结果才是你真正重要的结果。假如你这个结果任何人都可以得到，其他的research design也可以得到，就不是很紧的。

比如说，我就讲最简单的，人都是要死的，这个定论大家都有的，普遍的，我不需要任何study都可以得到的结论。那你说这是一个真理，人都是要死的，这是鲁迅说的。人都要死的，这句话，我加在前面，我问是男的还是女的死得早，这是一个性别比的问题。我做这个research design也是对的，男的比女的寿命短，短多少，这就要根据实际情况呀，不一样。比如说，以前妇女因生育死亡，现在医疗好了，没有这种情况了，这个是对的，这是我的设计。我的理论是什么呢？我的理论可能说教育对人的收入的提高有影响，这也是对的。这三者都是对的，你摆在一起就不对。因为你的conceptualization和research design和你的result是不吻合的。就这个意思。难就难在你的result要来自你的design，而你的design要取决于你的conceptulization。这是中国最缺的。

我带学生的话，我会跟他们讲，这三者是怎么把握的。你命题和你的设计，和你的结果，是怎么使它们紧凑起来，这个很重要。这也是我的教学经验。

生：但是您说的conceptulization在定性研究里就没有吗？定性研究里也要

谢宇：也有。

生：那这两者有什么区别？

谢宇：很相似。定性的也是。你看conceptulization好了以后，你的research design就会自然产生。就是你读了好的文章，你读了conceptulization，你自然而然的就被它引诱了你的research design，这两个是都有的。但它们导致的结果不一样。就是一个往东面导，一个往西面导，但是你是接受了它的conceptulization，你就接受了它的research design。形式很类似，但它们走的路不一样。它讲的东西也不一样。

比如说搞定性的，有的东西你能强调，有的东西你就不能强调，并不是说这个东西不对，而是说你的research design不能回答这个问题。比如说地区差别是不一样的，你的conceptulization讲这些，地区差，但如果你研究只研究一个云南，那你这个就不吻合。因为你知道，已经讲了一大堆地区差别是不一样的，但你最终只找了一个云南，你为什么找云南？云南和别的地方有什么不一样？你根本没有作任何说明，就说明你这个conceptulization和你的design不吻合。

但假如是quantitive，就很不一样。比如说经济发展不一样，那我可以找一个落后的，找一个先进的，找一个国有比较厉害的，找一个外资比较强的。你讲你的地区差别在什么地方，然后你强调你的地区差别，然后你的research design把你讲的这些重要性差异包括进去。这就是你的强项。所以说这个过程是一样的，只不过导致的结论，导致的research design是不一样的。

生：您说的“紧”的意思是不是说它们是一致的？

谢宇：不是说一致，我说的“紧”并不是说我事先有一个提法，然后这个提法一定得到承认。不是这个意思。我的“紧”的意思是说，是错是对，我有一个明显的答案，就叫sharp，就是说，我可能提的是对的或者是错的，但我可以说明这个问题。我的数据能够说明是对还是错，就是说没有模棱两可的。这个“紧”就是说，给你一个答案，这个是“紧”，并不是说我的，我觉得，希望我不是讲的很过分，我认为社会学的很多的理论的工作，可能是有意义的，但可能对实证的东西，可能并没有很多的帮助。有很多的东西，可能空虚的比较多。就是，我觉得，特别是年轻人，我总是讲，人要有理想，要有幻想，要想做大的事情，我觉得，中国教育缺乏的这一点，就是没有很大的胸怀，现在只想考试，只想工作。当然这是很重要很重要，很实际，人家有钱，我没钱，不行。所以呢，实际的考虑很多，利益的考虑很多，没有这种为知识而知识，为真的知识而很感兴趣的这种，对知识本身的意境和热情，这个很缺乏。这是我对中国教育的一个批评。就是说，很多人认为教育是一种手段，而不是一种目的。

还有一个呢，我想讲的是，你有胸怀是好的，要做大事是好的，但是我还要讲的是，要有理想，要有大志，但是还是要做些实际的工作。动不动就想超世界一流，想放个卫星，不是这么容易的。就是说有很多事情是一砖一瓦具体做成的。当然很多人做很大的事情，提出很好的方法，但我觉得要一步一步来，特别是年轻人，要从最基础的做起，从最少的一砖一瓦做起，那等你过了这个过程，做了一段时间，你可能有大的发展，有开创性的理论性的东西。但是我觉得太追求这种理论性的想改造世界的东西，是一种很好的理想，但是也很多人会迷失自己的路，所以我觉得并不是很可取。可取的还是做一些实在的，从实在的基础上再逐渐的发展，不要求快，不要求一步登天。你提出新的理论，你是狂人还是伟人？实际上狂人和伟人很难区分，所以我觉得你还是从实际的事情开始，你要做伟人有的是时间，不在于一朝一夕。因为有这样的观点，我并没有在理论上有什么了不起的发现，我觉得我并没有做什么事情，我只是做一些一砖一瓦的工作。

换句话说，我对很多社会学的理论是抱持批评态度的。这样说下来，我也不对我自己的理论和提法有特别的，不觉得是我的生命，不觉得我很重要。我觉得社会学要是要分工，就是理论和实证要分工。否则的话呢，你的理论你觉得这么重要，你会拼命地去证明它是对的。想法，你知道，绝大多数想法是错的，甚至我的很多想法都是错的，否则就没有社会的发展。很多人说，你要找到一百个的材料，才找到一个钨丝做灯泡，什么叫发明创造？发明创造就是做无数次的尝试，可能才有一次是对的，这就是发明创造。这就是文明进化的结果。所以很多理论是没有历史价值的。而一些经验性的结果性的东西，还是有历史价值的。我觉得很多方面，我们做的，只不过是历史的一个记载而已。所以我并不看重我自己的理论，所以我讲的“sharp”是说可以推翻，可以证明，并不是说我的观点多么重要。对我来说，我的提法并不是很重要的事情。

马戎：刚才谢老师说的，conceptulization，research design和analysis，以及最后的result，这三个要“紧”。大家如果听到我们同学的论文答辩的话呢，你们会发现老师们经常说学生，你前提是做review，你前面那些design和你后面的data analysis是两张皮。

谢宇：嗯，对。

马戎：实际上我们做论文的要求第一个是research review，不能说你没有理论你就谈事情，就事论事你就不要做证明了。所以同学们就会去看一些理论的东西，比如说搞社会分层的，就要看社会分层的书。但看的时候，往往是大而化之的，把那最有名的最基本的教科书式的东西完成了一遍，就很快地完成了，就进入data analysis，

谢宇：对，两个不搭界。

马戎：对，实际上我们怎么说，你这个东西两张皮，前面是为了research review而去做review，但实际上你后面的design，从读者，从老师们来看，其实是没有关系的。

谢宇：很多人就是说，动不动就是韦伯，就是迪尔凯姆，再加上个布迪厄，不管写什么文章，先把这几个人写上。不搭界。

马戎：你写的文章也许和这些人基本上没关系。不搭界。所以，谢宇教授今天谈的是什么呢，就是我们真正要做论文的时候呢，你的research review要做哪一个。不是说多有名就多引他，而是说他在你所研究的具体问题上，他确实有创见。这个人可能没有名，可能很多人不知道，但是他确实对你的这个研究，design呢，有很直接的很突出的影响，然后你整个文章是从头到尾呢非常的密切，而不是像我们常说的那样两张皮。我们很多文章前后不搭界，前面没有它可以，后面没有它也可以，最后在讨论的时候呢，简单的说，这个对我有启发，那个对我有启发，就完了。其实谢宇老师刚才说的这三个部分要“tight”呢，是我们现在学生做论文的一个通病。

生：谢老师，我刚才听你讲的例子，是有一些很明确的，可以操作化的方面，比如说我们在谈到教育和收入的时候，实际上在每个研究者脑子里有很明确的印象，就是我研究教育的时候应该怎么来操作，但是我觉得我们目前在做东西的时候，很多时候是我们觉得社会中有很多我们认为值得去关注的东西，而且产生了一些问题，那么在做这些问题的时候，和您刚才提到的教育和收入实际上还不是同一个层次的问题。我觉得这两个阶层之间的跳跃对我们来说非常关键，但是又是非常困难的。您作为老师培养学生是应该从哪些方面去培养？而我们学生在学习和工作中又应该从哪些方面去培养自己这种素质？

谢宇：你的问题很好，实际上是这样，很多问题是操作性比较弱的问题，绝大多数问题都是很难操作的，你讲的很对。有两个建议，第一个是说，要是你实在不能操作就不要操作，不要强迫，你真的不能做的事情，你强迫做了也不行。就像谈恋爱结婚一样，有很多事情你做不成就不要做，就要放弃。所以选题很重要，对于年轻人来讲，选题，我觉得要考虑它的操作性。并不是可操作就一定好而是说可操作有意义——就是两者能够衔接得比较好。

那是不是不可操作的或者很难操作的就不可做了呢？也可以。如果你要做的话，最重要的就是你能把操作性能做一个新的推进。你就是说不可操作性的东西，你的操作性本身就是conceptulization，你把这个搞清楚了，你就是有贡献。就是说你有很多问题，比如说，最难的，比如说马克思讲的“异化”，“异化”是很难操作的，有的人要是把“异化”全部conceptulization，到底有多少内容，然后怎么去操作，即使是“异化”的来源和结果我都不知道，我的贡献就是讲“异化”是不是可以操作，这个命题，你操作性本身是一个命题，很重要。难的地方，你可以尝试性的把操作性作为一个命题，有了操作性，以后的人才可以做其它的命题，等等。

就说真正的不能操作的不要勉强，有的人就勉强。比如说，中国什么最重要，他就研究什么，流动人口很重要，他就做。这种intuition，感觉是好的，但是你真正能操作，你又不能做。所以，既然你想了，有这个motivation，你要conceptulization，到底是不是能做的。这一点还是蛮重要的，你实在不行的话，你不要勉强。但是我鼓励你假如你真的喜欢，这就很重要，至少你可以操作性这个尝试你可以做，这个本身就是研究。很多事情是不可操作的，所以要，只能用分析的方法，推理的方法，尽量要做的好。

生：谢老师，目前美国的社会学教学上，有没有把定性和定量结合起来？为什么社会学的方法和别的不一样？

谢宇：定性和定量，我觉得并没有差别，因为逻辑思考是一样的。你只要用同一种逻辑思考，我并不觉得它们是两个。我觉得不赞成的是，就是说定性的一定要把定量区别，觉得定性的一定会弥补定量的，这个是我不赞成的。有些东西是由社会现象本身造成的，而不是因为定量和定性。我讲方法，主要是讲方法的局限性在哪。因为方法不能盲目相信，它没有一个conceptulization，不可能产生很好的效果。很多人认为方法就是一个统计，迷信方法，这个model，那个model。同样，刚才马戎讲的research review，就是讲把所有人都讲一下，韦伯讲一下，迪尔凯姆讲一下，现在中国喜欢布迪厄，再把布迪厄讲一下，什么都来一遍，都过个台，这个我们叫main jointing(?)，就是说你什么都不知道，就把main过一遍。很多人方法也不一样。他觉得我不知道这个方法对不对，我先把这个好的方法，最新的方法拿过来，或者是过一遍，那些方法我都知道，都不好，我用这个方法。这个也很多，我觉得这个很肤浅。我觉得最重要的，在选择方法的时候，要看到弱点，为什么这个方法不好？哪些弱点？要是你不知道这个方法哪里不好，为什么不好，你就不可能有很好的方法。

为什么社会学有自己的方法？为什么和别的学科不一样？是这样的，我对中国的大学教学有一点不太喜欢，在美国，但是我能理解。因为中国这个情况啊，是一个现实，这里面有招生的原因，有经济的原因，有权力的原因，所以分的院很多，动不动就是经济学院，什么机械学院、材料学院等等，其实这样不太好。学术是贯通的。我来讲讲我们那，我们那边是不分的。西方的教育是以人文为主，人文、科学和艺术，这三个，科学是很重要，但是是三个中间之一，一般是排第二。人文教育是最重要的，你看看美国的总统，你看看所有重要的人物，都是以人文为重的。所以我觉得北大是很重要的一个地方。人文教育是一个文明的最重要的支柱，也是作为发明创造的最重要的支柱。科学很重要，技术也很重要，但只会科学技术的话，就只能做个技术员。中国发展这么快，中国不是只需要技术员。这是很重要的问题。中国，我觉得，技术教育太强调了。只是培养一些技术员，没有真正思想上的开发，没有大家。

那我们是怎么分的呢？我们的社会科学是分为基础社会科学和应用社会科学。基础社会科学有这样几大类：经济，社会，心理，政治，人类，就这几大类。那其他的呢，就属于应用社会科学，包括管理，包括法学，包括公共卫生，包括社工，包括教育，还有传播，这几个是专业的、应用的社会科学。所谓的应用社会科学，和我们的方法是完全一样的。为什么强调说我们的很多成果是二次教化呢？我们是做基础科学的，很多社工的、保险的或者说管理的，它们可以用我们的很多东西，很多东西是贯通的。但是他们相对就强调应用性，而我们不强调应用性。

方法论即使是在基础科学里面也是贯通的，是一家的。很多统计方法都是贯通的。所以在我们那边的话，有学生到我那边去，你可以看到我每天打交道的人并不都是社会学的人，有统计系的、有教育的、有心理的、有经济的。就是我们完全是交流，在学术思想上的交流是跨学科的。方法上也是互相运用的。他们的统计我们也用，我们的学生也看他们的，这都是贯通的。

那为什么还有社会学的特色呢？有两个原因。第一个原因呢，就是我刚才强调的，方法和研究的对象是不可分割的。我觉得方法论讲，除了社会问题，最好的研究方法的，他一定是研究社会问题的。比如说搞计量经济的，都是不仅在方法上有贡献，具体问题上也有贡献。光研究方法是没有出路的，是不应该的，你很容易走歪路。总觉得这个东西很重要，但是实际上离开了你的对象，你方法是没有用的。所以为什么说有社会学的方法，主要是因为它和研究对象是在一起。因为有社会学的对象，所以它有些侧重点不一样。第一，它们是联结的，第二，它的侧重点不一样。比如说我们的侧重点，对人的群体的变化，就是说把教育呀、性别呀、年龄呀、地区呀等等看的很重。但经济学相对来讲，这方面就看的稍微轻一些。心理学，经常用学生做实验。我们就从不用学生做实验，因为我们觉得他们的代表性不够。但他们强调共性比较多，就心理系。所以侧重点不一样，但方法论、科学的逻辑的东西是通的。所以，不同的有两点，一个是联结的研究对象不一样，一个是侧重点不一样，我们对人口结构、组成、社会地位等看的比较重。

生：但是有很多人鄙视统计。说统计的东西是比较肤浅的，说它可能发现的只是一些相关的，然后就把这些相关的上升到理论，然后推导因果。

谢宇：对呀，我承认，这是我讲的，是有很多缺陷。但是你要知道，这个缺陷不是统计方法的缺陷，这个缺陷是research design的缺陷。我刚才讲了，比如说教育，它这个缺陷并不是说这个回归不对，方向不对，数据不对。它的不对是因为你不能把人，随机的让他受教育不受教育，这是一个subjece matter，是一个research design，这不是统计的事情，不是统计的局限。你这个局限，你即使是做qualitative，你能解决吗？你也不能解决。

比如说教育的回报问题，教育程度高，收入回报就高，有一个问题，我们能看出，我知道，我做统计的。因为受教育水平高的人，他工作能力比较强，他比较守规矩等等，你有这样的bias偏见，这个偏见我也知道是存在的。但是我知道，不能解决的。那这个偏见，你说，你用定性的方法，你能解决吗？这是不可能解决的事情。并不是因为统计本身的问题，而是因为你研究的对象的局限。

马戎：就是说你这个方法如果用于物理学，你研究的是分子，是原子，没有任何问题。但是一旦你用到活生生的人的时候，人千变万化，很多东西实际上是你这单独一个方法无法控制无法解决的。人不是化学物质，不是物理物质，所以在它的解释上可能会出现一些偏差，一些缺陷，这个是研究对象的问题，不是统计学的问题。

谢宇：对，不是统计学的问题，统计学解决不了的。我就讲了，统计学一定有缺陷，但是统计做的好的人呢，知道这些缺陷。这些缺陷你不要讲我也知道。很多人认为搞统计的人就迷信统计，但实际上搞统计的人他对于统计越高，知道的缺陷越多。就是它不是万能的，而且它缺陷很多。找任何一个不搞统计的人，他知道的缺陷肯定比我知道的少。他能知道的比我多吗？你找一个最不喜欢搞统计搞量化的人，他能指出几个缺陷？我可以指出他的三倍。你找任何一个人来，你能说你知道统计有多少问题？我比他知道的多。有的时候吧，就有的人说你们做那个东西不行，你们有这个缺陷那个缺陷，这些缺陷并不是我不知道，是我知道的，只是这些个缺陷很难补偿，我能补偿就补偿。

生：谢宇老师您好！我想问一个问题，就是您刚才也说到，就是在中国，做研究的数据的可得性和质量问题。而且中国社会学方面的数据也很少，我看大部分是用人口学的。我就想问一下，不管是说从调查上的研究探索也好，还是研究也好，您能不能给我们一些建议？

谢宇：我觉得，自己收集资料还是很冒险的事。你不知道资料质量怎么样。我是强调质量不强调数量。你做的小而做的好，可能要比你做得大而做的不好要好。所以，在质量和项目的大小上作取舍的话，我是选择小但是能做。这是第一个。第二个呢，我们想改变这个。我们这次来，（就是想做些这方面的努力。）（注：有关此行的三次目的与方法没什么关系，略）

我不是很赞成学生自己收集资料，这个收集是心里没底的，要是弄不好的话，可能两三年都泡汤了。特别是当他资源还比较少的情况下，质量不好的话。最简单的比如抽样问题，就很难。艾滋病怎么抽样？流动人口怎么抽样？你没有抽样，没有好的sample样本的话，你就很难得到一个原始数据。所以我还是建议跟老师做，用现有的数据，来解决你缺乏数据的问题。

三、因果推理

主讲：谢宇教授（美国密西根大学社会学系教授）

主持：马戎教授（北京大学社会学系主任，博士生导师）

时间：2002年10月23日晚7：00－9：00

地点：五四体育馆体教电教厅

马戎教授：今天这个讲座是谢宇教授方法论系列讲座的第二讲，主题是因果推理。下面我们用掌声有请谢宇教授给我们做报告。

谢宇教授：谢谢大家光临来听我的讲座，我今天要讲的是方法论的第二讲因果推理。上一讲我们讲的是比较抽象的哲学比较。这一讲我会讲得更具体，更深入一些。要讲因果推理，我们首先引入几个因果关系的问题（Causal Question），第一个是9.11事件会使美国人感到恐怖吗？如果会的话，9.11事件就是因，美国人感到恐怖就是果，是9.11事件导致了美国人的恐怖感。第二个例子是你们来参加我的这次方法论系列讲座有收获吗？如果有收获的话，你们参加讲座就是原因，收获知识就是结果，如果你们不来参加这个讲座可能就没有这种收获，但可能会有别的收获，是你参加这次讲座造成你在方法论方面有了这种收获。因此，因果关系问题是一个形式上简单的问题，它包含两个理论性概念之间的关系：原因（cause）和结果（effect）。是不是有原因就会导致结果？如果把原因变量定义为X，把结果变量定义为Y，是不是有X＝＞Y？这就要求我们正确的理解因果关系。因果关系是所有科学研究的基本目标。通过研究因果关系，我们可以准确的预测未来，为政策干预提供科学根据，还可以验证和丰富认识客观世界的理论知识。

为了理解因果关系，我们先引入简单比较的概念。简单比较是一种简单的方法，就是比较试验组和控制组。下面我举一个例子来说明这种简单比较的方法。在一个社区内，X1个儿童参加了一个启蒙教育项目（Head Start），这些儿童就是试验组，而另外X2个儿童没有参加这个项目，这些儿童就是控制组。27年后再来测量这两组人各自得到的受教育水平。我们用Y1来表示参加了启蒙教育项目的试验组儿童的受教育水平；用Y2来表示没有参加启蒙教育项目的控制组儿童的受教育水平。结果是受过启蒙教育的儿童的受教育水平比没有受过启蒙教育的儿童的受教育水平要低。那我们是否可以得出这样的结论，启蒙教育项目对受教育水平有负向作用。60年代前期，Westinghouse就报告了这个结果。从观察到的数据来看，参加启蒙教育项目与受教育水平的关系好像是负向的。但是，我们这里忽视了一个变量的作用，就是社会经济地位。参加启蒙教育的儿童一般是来自贫困家庭，需要通过政府资助才能上学，而那些没有接受启蒙教育的儿童来自比较富裕的家庭，他们父母能够供他们上学，并且能提供较好的学习环境。因此这两组人根本就不具有可比性，因此在这个试验中把家庭条件较好的儿童定为控制组就是不合理的，因为在家庭经济地位的影响下，我们根本就看不出参加启蒙教育与不参加启蒙教育对贫困儿童受教育水平的影响。因此在这个试验中不应该把家庭经济地位较好的儿童设为控制组，而应该选择两组都是来自贫困家庭的儿童，一组作为试验组，另一组作为控制组，再来测评启蒙教育对他们受教育水平的影响，这才有意义。另外一个例子是，加州大学伯克利分校研究生录取的性别比例问题。我们先来看一下总的录取数据。

申请人数入学比例

男性 8442 44.2％

女性 4321 34.58％

表面上看，好像男性的录取率要比女性要高，但实际上是不是这样呢？我们来看一下具体某个专业的录取率，从专业的录取率来看，女性集中报考在录取率较低的热门专业，并且在这些专业中女性的录取率还比男性要高，在其他相对冷门的专业里，女性的录取率都不必男性低。但是，为什么总的录取率中，女性会比男性低很多，致使当时掀起了一股女权运动。主要是因为报考的女性基数比男性要小很多，只有男性的一般左右，当大部分女性集中报考那些录取率比较低的热门专业时，其总录取率必然较低，但男性虽然也有不少人报考了录取率较低的热门专业，但是他们还有很多人（相当于女性的总人数）报考了其他录取率较高的专业，因此平均下来，男性的总录取率会高于女性。因此这里根本不存在性别歧视的问题，只是因为一些人只看到了表面数据，而没有深入分析。因此在这个案例中，性别与专业选择有关系，性别影响专业选择，专业与录取率又有关系，不同的专业有不同的录取率，由于录取率在各专业之间有很大的差异，女性多的专业录取率低，男性多的专业录取率较高。这就导致了总录取率上男性要高于女性。

下面，我们来看一下其它三个社会学案例。第一个是从受教育水平来看，是兄弟姐妹多好还是独生子女好？是独生子女受教育水平高还是有兄弟姐妹的孩子受教育水平高？我想听一下大家的意见

学生一：我认为这个问题要从两个方面来看，一个是当经济发展水平较高，家庭收入相对较高，受教育机会均等时，多子女之间由于有相互协作，他们的受教育水平就会比独生子女要高。当经济发展水平较低，家庭普遍比较贫困时，独生子女的受教育水平就会相对比较高，因为这个时候受教育的机会不均等，子女多的家庭难以支付所有子女上学。

谢教授：你分析地很好，但是我要补充一点，就是事实上当机会不均等时，独生子女享有更多的受教育机会，但是这并不能说明独生子女的受教育水平会比非独生子女要高。由于非独生子女受教育机会难得，他们往往会非常珍惜这种机会，因此他们有很强的学习动力，这往往时他们在学习时候比独生子女要刻苦，而独生子女因为家庭条件优越，往往没有什么学习进取心，当然我这里是讲一般情况，不乏有特例，因此就学习成绩而言，有的非独生子女往往比独生子女成绩要好，但是由于家庭经济条件的限制，非独生子女获得本科和本科以上的受教育机会很少，因此总的而言，独生子女的受教育水平会高于非独生子女。

我们的第二个案例是婚前同居使离婚的可能性增加了还是减少了？我还是先听一下你们的看法。

学生一：我认为婚前同居会增加婚姻的稳定性，因为婚前同居会使相互之间加强了解，增进认识，形成较稳定的认同，这会使他们的婚姻更加稳定。

学生二：我认为婚前同居不利于婚姻的稳定性。从观念上考虑，选择婚前同居的人一般是观念比较开放的人，他们在结婚以后如果婚姻遇到挫折的话也会很轻易的选择离婚；而那些受传统观念影响的人不经过婚前同居而结婚，他们就会很看重婚姻的稳定性，而不会轻易的离婚。

谢教授：从理论上来分析，结论和第一位学生比较接近，因为同居关系的确立会增进相互之间的了解，导致婚姻更加稳定。但是统计数据表明

婚前同居会使离婚的可能性增加。为什么呢？原因就跟第二个同学将的差不多。由于选择同居和部选择同居的人在观念上存在差异，选择同居的人一般观念比较开放，他们会轻易的选择同居的话，他们在结婚以后如果相互之间出现矛盾的话，他们也会很容易选择离婚。而不通过婚前同居而直接结婚的人，他们的观念相对比较传统，他们会比较重视婚姻的维系。因此婚前同居并不一定会增加婚姻的稳定性。

案例三是接受了大学教育后有什么回报？你们都上了北大，将来都会挣很多钱，但是当你挣钱的时候，你是不是会认为你能挣这么多钱是因为你在北大受教育的结果？在考虑这个问题的时候，我们不能通过比较在上大学的人和没有上大学的人来获得认识，因为我们不知道在上大学的人如果他现在没有上大学的话，他会是什么状况。而那些没有上大学的人，他们如果上了大学后又会是什么状况，这些都是我们无法知道的，因此我们直接把在上大学的人和没有上大学的人放在一起比较是不科学的。那么，我们能不能通过试验来获得对这个问题的认识，就是我们能不能让一个人既去上大学又不去上大学，然后再来比较上大学与不上大学的区别呢？这显然是不行的。当一个同学在上大学时，我们就不知道如果他不上大学会是什么样，如果一个人没有上大学，我们也不会知道如果他上了大学会是怎么样，这是无法通过试验来获得对这个问题的了解的。因此，归根结底，因果关系问题实际上是一个反事实问题（Counter-Factual），就是你要反过来想一想你在做某一件事情的时候，你没有做的事情。因此，在做因果推理的时候我们必须考虑反事实的问题，对于那些接受了“试验”的人，你要想如果他们没有接受这种试验会是怎样的情况。比如那些受过启蒙教育的儿童，假如他们没有受到这种启蒙教育，他们会是怎样呢？就是对相同的人来讲，得到了treatment，和没有得到treatment，会有什么区别。对于那些没有受过试验的人，假设他们接受了试验，那么又可能是怎样的状况呢？比如独生子女的孩子没有受过非独生子女的待遇，非独生子女的孩子也没有独生子女的经历，婚前同居的人不知道婚前不同居的人的感受，婚前不同居的人也不会了解婚前同居的人的体会。因此我们在想问题的时候不仅要想组与组之间的差别，更要想同一组人在两种不同情况下的差别。因为这是一个反事实的问题，我们根本不可能通过试验得到验证，因此这里就有一个很现实的问题，就是一个缺乏数据的问题。对于一组人，我们只能知道他在一个时间内进行一件事情的情况，而不可能知道在这个时间内如果他去做其他事情的话，他会是一种什么情况。比如对一个上大学的学生，我们不可能获得他不上大学的情况的数据。一个婚前同居的人不可能知道如果他婚前不同居会是什么情况。但是，这种数据的缺乏并不能阻止我们通过逻辑思维来对这个问题进行思考。因此这里就需要对无法验证的现象进行假设。但是我们引入假设也是有代价的，假设是否合理会直接影响到结果的正确与否，就是你必须从最牢靠，最基本的现象来看问题，必须把你的假设建立在事实的基础上，你的结果错了就完全有可能是你假设错误，因此假设也是有代价的。但是由于我们无法获得反事实现象的数据，我们不得不通过逻辑思维进行假设，这就引入了简单比较所需的假设问题。

如果试验组对象与控制组对象大体上是相当的，那么可以用这样的假设来简化问题。我这里为什么要说大体上是相当的，因为他们之间的差异还是有的，比如性别上的差异，年龄上的差异，但是通过大样本取平均值就可以忽略不计。就是假如组与组之间只有接受treatment和不接受treatment之间的差异，而没有其他的差异的话，我们就可以简化问题。对于第一组，我们知道了他接受了treatment的情况，但我们不知道如果他们没有接受treatment会是什么情况，我们就可以假设他们和控制组是差不多的，他们没有接受treatment的情况会和控制组没有接受treatment的情况差不多。同样，对于控制组，他们没有得到treatment，我们不知道他们得到了treatment后会是什么情况，我们也可以假设控制组和实验组是大体相当的，实验组接受了treatment的情况就会和如果控制组也接受treatment的情况差不多。当这两个假设都成立时，第一组的处理效应减去第二组的处理效应就会等于第二组的处理效应减去第一组的处理效应。一般我们做简单比较时会有代价，这种代价就是因为我们认为被处理过的和没有被处理过的组大致是相同的，在大致相同的假设下才可以用简单比较的方法。比如就我前面讲的例子，假设婚前同居的人和婚前不同居的人在观念上、性格上大体上是一样的，如果这个假设成立的话，我们就可以对同居和不同居的人进行简单比较。另外一个例子是上大学的人和不上大学的人，假如他们之间在能力，年龄，机会和把握机会的能力上是基本相同的话，我们也可以对他们进行简单比较。但是如果假设不成立的话，你得到的结果就会有很大的偏差，而当你的结果出现偏差的时候，你也会知道你是在假设上出了错误。所以在假设成立的时候，就可以进行简单比较，但是简单比较也是有代价的，当假设不成立时，你得到的结果就有可能是错误的。在现实情况下，这种假设一般是不成立的，你只能在试验的时候对外部因素进行限制和排除才能使这种假设成立，但是这在现实社会中是不可能的。比如婚前同居的人和婚前不同居的人他们在观念上，生活习惯上，个人性格上就会存在很大的差异，他们之间是不会大体相同的。另外，上大学的人和不上大学的人在能力、个人兴趣等方面也是有很大差异的，我们也不能把他们完全等同。而这些东西又是我们不能通过试验来实现的，我们不能强制一些人婚前同居，一些人婚前不同居，我们也不能强制一些人去上大学，一些人不去上大学。所以用简单比较的方法计算回报率得到的结果会偏高。

为什么是偏高而不是偏低，这就引入了一个比较具体的问题，就是忽略变量偏差（Omitted Variable Bias），这种偏差是不可避免的，但是我们必须把这个偏差的方向搞清楚，就是我们要知道为什么会有偏差，而且偏差是正的还是负的。如果试验组与控制组对象在观察到的有关特征上具有明显差异，那么这种选择性就被称为“观察到的选择性”（Observed Selectivity）。我们社会科学方法论上最头痛，最难解决的问题就是选择性的问题。人的行为是理性的，他做一件事情的时候会有他的道理，结婚也好，同居也好，这都是他们自己的选择。所以假如这里所有的选择性我们都能够观察到，那我们还能够解决，关键是有很多选择性是我们观察不到的。比如第一个启蒙教育项目的例子，这里的选择性假如是由于家庭经济地位造成的，那么我们就应该对这些家庭的经济状况进行测量。所以选择性是一个潜在的东西，要解决选择性的问题，有一种方法是把这些所有可能的危机全部都找出来，因为这些危机是可能导致我们得出的因果关系是假的。就是假如你知道某些变量是重要的，但是你忽略了这些变量，就有可能会导致忽略变量偏差。在多元分析当中，我们可以通过统计控制，使这两个组具有可比性，从而解决这个问题。实验组和控制组是有差异的，是不相同的，但是我们可以通过统计的方法来对它们进行控制，使他们达到基本相同。比如，如果我们不考虑年龄的因素，我们会发现佛罗里达州的死亡率会大大高于其他州，为什么呢？当我们从年龄结构上去分析时就会发现，佛罗里达州的老年人人数大大多于其他州，这就直接导致它的死亡率很高。所以当我们忽视了年龄这个变量的时候就会导致忽略变量偏差。因此，你在做统计的时候，就要尽可能地考虑到所有能够产生影响的变量。这就是我们要做多元分析的基本点。在因果关系里我们想知道的就是两个东西，一个因，一个果，由于组与组之间存在差异，所以我们在针对一个结果去找原因的时候我们就要想到多个因，通过多元分析来掌握其中的因果关系。这就是为什么统计很难做，为什么问卷要设计很长，就是因为我们要尽可能的考虑到可能对某个结果造成影响的各个变量。但是并不是所有的比较都会造成忽略变量偏差，很多时候并不会出现忽略变量偏差，因为忽略变量偏差要成立的话，它必须满足两个条件。这两个条件中缺少其中的一个都不会出现忽略变量偏差。第一个是有关条件，就是你忽略的变量要对因变量产生影响，也就是你忽略的变量要与原因有关系。第二个是相关条件，就是你忽略的变量要与主要的自变量相关，第一个是要和因有关系，第二个是要和果有关系，只有这两个条件同时成立时才可能会出现忽略变量偏差。在伯克利分校录取率的案例中专业与性别也是有关的，不同性别的学生集中在不同的专业，另外专业与录取率是有关的，不同的专业录取率不同，忽略了专业这个变量时就会造成忽略变量偏差，假如说专业与性别没有关系，或者专业与录取率没有关系的话，就不会出现忽略变量偏差。只有当专业与性别有关系并且跟录取率也有关系时，如果你忽略了专业时就会造成忽略变量偏差。另一个就是同居与离婚率的关系问题，如果观念与同居没有关系，或者与结婚后的选择离婚没有关系，就不会出现忽略变量偏差。正是因为人的观念既影响了婚前的同居，也影响了婚后对离婚的选择，因此忽略观念在这两者中的作用就会导致忽略变量偏差。

下面我们来看一个例子，我们这个社会对两个东西最感兴趣，一个是钱，一个是婚姻。我要举的这个例子把这两样人们最感兴趣的东西都包括了。这个案例就是在美国社会有一个很奇特的现象，就是婚礼花费的费用对婚姻的稳定性有正向作用。这一结果是否是忽略了有关变量造成的。我想问一下你们为什么婚礼的花费会对婚姻的稳定性产生正向影响？

学生一：应为婚姻花费越高，沉没成本越高，而这种沉没成本是无法回收的，因此在他们通过巨额的开支而结了婚后，如果要离婚的话，一是意味着他们投入的沉没成本没有获得收益，第二他们就会考虑下一次再结婚又要投入很大的沉没成本，因此他们更可能会选择维系现存的婚姻。

学生二：我觉得有两个原因，一个是如果他的婚礼办的比较大，就会牵动较多的关系，当他们要选择离婚时，要面对比较大的舆论压力。另外一个是他的婚礼花费高意味他的经济条件比较好，而经济条件好的家庭更容易维系婚姻。

谢教授：你们讲的很好。在美国，婚礼的费用一般是由女方家庭来出的，你们讲的成本，舆论压力，经济条件都是影响婚姻稳定性的因素。因此婚礼本身的稳定性并不是由钱这一方面的因素造成的，他还通过很多中间变量在起作用，因此简单地说婚姻花的钱多，婚礼的稳定性就高，也是忽略变量偏差导致的结论。因此这不是一对真正的因果关系。

现在，我们来讲忽略变量偏差的可能情况，和偏差的方向。忽略变量偏差有三种情况。在第一种中，忽略的变量用Z表示，原因用X表示，结果用Y表示，Z分别是X、Y的决定因素，Z对X的关系是C，Z对Y的关系是B，如果B和C有相同的符号，那么忽略变量Z导致的偏差是正的，如果B和C符号相反，那么忽略变量Z造成的偏差则是负的。比如假设X是受教育水平，Y是职业，Z是智力水平。智力水平是受教育水平和职业的决定因素，他会对这两者都产生影响，智力水平对职业的影响是正向的，对受教育水平的影响也是正向的，因此如果你忽略了智力水平在这两者之间的关系，造成的偏差就会是正的。第二种情况是Z和X相互影响，不是Z导致了X，而是Z和X相互影响，并且Z是Y的决定因素。如果Z与Y的关系B和Z与X的关系C具有相同的符号，那么忽略变量造成的偏差是正的，如果B与C的符号相反，那么忽略变量造成的偏差则是负的。第三种情况是Z是X作用于Y的一个中间变量或是解释变量，如果B和C有相同的符号，那么对直接作用而言，忽略变量Z导致的偏差是正的，如果B和C符号相反，忽略变量Z造成的偏差则是负的。比如女性的数学成绩比较低，假设数学成绩对职业选择有很大的关系，如果忽视了数学成绩在这两者之间的关系，就会造成负的偏差。

下面我们来讲一个比较重要的东西，这一段我没有翻译出来，主要是讲Propensity Score. P(T)=probability of treatment, if observed selectivity is present, P(T) is a function of observed variables vector Z, we can estimate P(T) through a logit model, under the assumption of no other omitted relevant factors, group T and group C are comparable, within levels of the estimated propensity score. Adjustment is thus made through a single dimension of propensity score. Propensity Score是1984年发现的，发现之初并没有很多人使用，但是现在用的人比较多。

最后我要讲概率性的因果关系。我们讲的因果关系都不是绝对的，都是概率性的因果关系。概率性的因果关系就决定了我们只能做相对的平均值分析，做趋势的分析，而不能做绝对的分析。在这种分析中我们要讲到嵌套的原因，这种概率性原因对个案的分析是不适用的，另外我们还会讲一下回归和相关在因果关系分析中的作用。我们第一个要讲的是同因不同果，因果关系的经典注释是决定性。我们讲的这种绝对性是指概率性和随机性，因为变异是社会科学的本质，相同的原因会导致不同的结果。变异又分为总体变异和时间变异，总体变异是不同个体之间的变化，比如在座的同学，你们同样是听了2个小时的讲座，但是你们对这个讲座的接收程度就不一样，有的人接收得较快，有的人较慢，这就是总

体之间的个体差异。时间变异是相同个体在不同时间的变化。比如不同的时候，人的态度，人的反应是不一样的。概率性的原因就是强调平均值和趋势。随着样本规模的扩大，因果关系渐趋近于平均值，但是这种平均值并不是针对个案而言的。这个概率性原因有两层含义，一个是有原因不一定有结果，比如子女多的家庭未必子女的受教育水平就低。相反，另外一层含义是结果可以在没有某个原因的情况下发生。比如吸烟与肺癌之间的关系，一个人得了肺癌不一定就是因为他吸烟造成的，虽然在统计上而言吸烟对肺癌有直接因果关系，但是这种因果关系并不是决定性的。第三个要讲的是嵌套原因，嵌套原因是必要条件而不是充分条件，这事实上是一个风险问题。另外，概率性原因对个案是不适用的，只有在有重复事件时，概率性的因果关系才会有意义，概率论的基础是重复，假如没有重复，就不可能有概论，也不会有概率性的因果关系。假如你要研究很具体的事件，我建议你不要用统计的方法，这基本上是行不通的。

第五个要讲的是相关和回归，它们是发现因果关系的工具，这个我在以后的讲座中还会着重讲。相关和回归是一种分析的方法，但是两个事情相关并不代表他们之间存在概率性的因果关系，因为相关的关系可能有很多种，不仅仅是因果相关，因此大家不要把相关当作因果相关。由于时间的关系，我今天的讲座就到这里，谢谢大家！

马戎主任：由于时间的关系，我们就不提问了，今天的讲座到此为止。

四、研究设计和抽样理论的基础

主讲：谢宇教授（美国密西根大学社会学系教授）

主持：马戎教授（北京大学社会学系主任，博士生导师）

时间：2002年10月25日晚7：00－9：00

地点：交流中心新闻发布厅

马戎主任：今天，我们欢迎谢宇教授给我们做方法论系列讲座的第三讲。

谢宇教授：这是我的方法论讲座的第三讲，在第一讲里，我强调了社会科学与自然科学的差异，它们之间有很不同的支点，那就是个体与个体之间的差异和由个体组成的整体之间的差异。第二讲我讲的是做因果关系分析时经常遇到的问题，这个问题的来源就在于个体与个体之间有差异。你比较两个人或者两组人，两个国家，两个文化，除了你看到的支点以外，还有隐藏的你看不见的东西，这就是我讲的选择性。假如这些选择性是我们可以观察到的，能用统计方法测量到的，我们就能够用统计的方法来控制。我在第四讲和第五讲会详细的讲一些方法上的问题，就是假如这些选择性没有被观察到的话，我们该怎么办。另外我还讲了造成忽略变量偏差的两个条件，就是在什么情况下，你忽略了变量会导致偏差。这些都是因为人与人，一件事情和另外一件事情，个体与个体之间存在差异造成的。

今天我要讲一些相对比较传统的一些概念以及方法上的研究设计，还要讲一点抽样理论的基础，抽样理论基础这部分今天讲不完，我在第四讲里会接着讲，在这一讲我会把我认为最重要的东西强调一下，有的可能你们已经学过了，我只是给你们把重要的东西强化一下，系统的讲一下。一般讲研究设计是从分析单位讲起，然后会讲到分析单位的层次问题，再讲分析单位的总体和几种重要的分析单位。我们先来给分析单位下一个定义，分析单位就是被研究的社会实体，这些实体可能是个人，可能是家庭，可能是组织，任何我们社会学研究的对象都可以叫做研究实体。他们是研究者需要观察、了解、描述的对象。所以分析单位是很简单的，就是你想研究的东西。分析单位是有层次的，一个较高水平上的分析单位可能包括多个其他较低水平的分析单位。比如个人是生活在家庭中的，所以一个家庭有很多个人，很多家庭又组成一个社区，多个社区组成一个县，再组成地区，再组成国家。我前面讲的社会现象存在差异，而差异就表现在分析单位的不同层次上，差异所在的地方，就是你要解释的地方，假如你不知道差异在什么地方，你就不可能找到合适的解释。比如说文化，如果你找不到文化之间的差异，你就很难解释两个国家之间的差异。因此，解释的差异和结果的差异要吻合，要不然你的解释就是失败的。所以，你知道了你的研究对象在什么样的水平，你解释的差异和结果的差异就要在同一层次上。因为我要讲的内容很多，我会讲的比较快，如果你们有问题的话可以提出来。我讲课有一个假设，就是如果你们不提问题的话，就说明你们听懂了，如果你们没有听懂就要提问题。

你一旦建立了你的分析单位就要知道你的分析单位的总体是什么，确定分析单位的总体是非常重要的，因为你要解释的是所有现象，而不是一两个现象。我们举一个例子，如果我们要评估北大社会学系20年来的教学质量的趋势时，什么是总体？我想听一下同学的回答。

学生一：是社会学系。

谢教授：社会学系不是一个变量，假如有几个系的话，我们可以做一个比较，但是只有一个系的话，他不成为一个变量。

学生二：是不是北大社会学系每年的招生质量。

谢教授：很好，你讲的是生源的质量，我的答案是所有社会学系20届的大学生。以每一届学生为一个观察点，你想知道20年来教学质量的变化的话，就对每一届学生进行一个比较分析，从一届到另外一届，他的教学质量有什么差别。因此这里的分析单位是一届学生，而分析单位的总体就是整个20届北大社会学系的学生。所以你选定一个研究对象后要知道他的分析单位是什么，知道了分析单位后要知道分析单位的总体是什么，这是做研究的第一步。在具体的研究中，我们会用到那些具体的分析单位呢？我这里讲几种重要的分析单位。一个是个体（Individuals），个体在社会学中基本上是指个人。个体是社会学最基本的分析单位，其他的分析单位都是由个体组成的，没有比个体更小的分析单位。第二个分析单位是人群（Groups），人群也可以作为分析单位，人群的很多特征是由个人的特征汇总而成的，对人群的测量是通过对个体的测量汇总而来。比如种族，社区，家庭等以个体集中起来的一个群体。再比如我们讲男性工作者的工资要比女性高，工资本来是以个人为单位的，我们这里讲的两性的比较就是通过对不同个体的汇总得来的。下一个概念就是组织（Organization），组织不仅仅是个人的集体，它重在于组织成员之间的关系。关系是一个人没有的，没有学生就没有老师，就没有师生关系。组织的重要性在于它强调了关系，涂尔干就强调了社会学研究的是社会现象，社会现象不是由单个人造成的。当人们参加组织和团体活动时，个人的力量就被组织力量所掩盖。社会学之所以重视对组织的研究，是因为组织虽然是由人组成的，但是它已经超越了人本身而形成了一种关系，这种关系就是一种社会事实，而这种社会事实就是我们社会学要研究的重要部分。第四个分析单位是社会艺术品，比如书籍，建筑，绘画等。这些东西你们都熟悉，我在这里就不多讲。

下面我要讲的是时间性（The Time Dimension）。时间性是一个很重要的概念，假如我有更多的时间，我会多讲一点关于时间的东西。你要研究社会现象，你就要关注时间，时间从方法论角度来讲是一种信息；从理论角度来讲是研究的对象。因为我们要研究社会变化，我们也要研究人的行为，人的行为是随着人的经验、经历而变化的。以前的经历会对你以后的经历产生影响，你这方面的经历对你那方面的经历会有影响，这都是与时间有关系的。你在考虑社会变化和个人变化时，都要考虑到时间性。我们做方法论的也要注意时间性，什么事情先发生，你先观察到什么，什么东西是后发生的，是你后观察到的。因此时间性是一个很重要的概念。

根据时间性，我们可以把研究设计分成两大类，一类是横向分析，另一类是纵向分析。横向分析是对一个时点上的分析，是社会发展历程中的一个“快照定格”，要了解一个社会就要从横向分析开始，这是最基本的分析。虽然横向分析给你的信息是有限的，但是这些信息还是很有用处的，这是研究社会的第一步。比如在美国每十年进行一次人口普查，中国第五次人口普查也刚刚做完，数据刚刚出来。一次普查就是一次横向分析，是对社会的一次解剖，解剖的时间是人为定的。在美国还有很多横向分析，我这里举两个，一个是“现时人口调查”（Current Population Survey）简称CPS，它起源于美国的大萧条，美国政府为了监测经济发展情况，防止大萧条的再度发生，由政府出资，每个月都对经济发展的一些指标进行统计分析，通过这些指标来了解经济发展的状况，看当前的经济状况是有发展还是面临危机。我们经常跟学生开玩笑，问他们知不知道CPS，知不知道CPU，知不知道CPI，CPI是通货膨胀的指标。通过调查CPS，算一算CPU得出来的就是CPI。另外一个横向研究是“监测未来”（Monitoring The Future）。这是我们密西根每年都做的一个很大的调查。这个调查是对中学生做的，美国青少年有很多不良现象。这个调查就是监测青少年的不良行为，包括吸烟、喝酒、吸毒等，这是美国每年都在密西根做的一个项目。但是横向分析给你的信息是有限的，因为他忽略了动态的东西，为了知道动态的现象，我们就要采用纵向分析的方法。

纵向分析有助于推倒因果关系。因为从纵向分析中你会很清楚地看到什么事情先发生，什么事情后发生，从道理上来讲先发生的是原因，后发生的是结果。比如美国一个很重要的发现就是父母离婚对小孩的教育，成长状况，心理健康以及以后的行为都是不利的。如果你要研究这个项目的话，你首先要观察到什么样的家庭是离婚的，父母离婚前小孩的行为和父母离婚后小孩的行为有什么不一样，父母离婚后，小孩会改变他的行为，离开他原来的生活轨迹。所以说纵向分析对社会学研究有很大的帮助。关于纵向分析怎么具体的来推倒因果关系，我会在后面的讲座中讲到。纵向分析有两种类型，一种是趋势分析，一种是追踪分析，其中趋势分析其实不是真正的纵向分析，我们把他们放在一起是要你们知道他们的区别。趋势分析是在不同时点上对同一总体进行独立重复的抽样研究。我要强调的是趋势分析是对同一总体的研究，研究对象可以是不同个体，但必须是来自同一总体，而且第一次研究和第二次研究是独立的重复研究。因此，从方法论角度来讲，趋势分析实际上不是纵向分析，他可以称作是汇集的横向分析（pooled cross-sectional studies），就是把不同的横向分析在不同的时点汇总起来。我们做横向研究并不是一次就做成的，比如人口普查，每十年就要做一次，你把一次次的数据汇总起来就可以看到社会的变化。我们对国家，对社会，对任何总体在不同的时间抽不同的样，就是想对总体的趋向有一个了解。比如说人口的增长，教育对人口素质的影响，这些趋势都是我们需要研究的。

这些都是通过在不同时候抽不同的样来反映总体的变化。因此趋势分析也叫做重复的横向分析。如果你在不同的时间，多次重复抽不同的样本，就能看出研究对象的发展趋势。趋势分析的例子就有前面讲过的美国的pooled census, pooled CPS等。你要了解美国社会的变化，你只要把这些资料汇总在一起，就能看出美国社会的很多变化。我为什么说这些趋势分析不是真正的纵向分析呢？因为真正的纵向研究是追踪研究。追踪研究是对同一人群，同一样本在不同时点上做的重复观察。前面的趋势研究是对同一总体取不同的样本，通过不同的样本来反映总体在不同的时候的状况，从而看出总体在一段时间内的变化趋势。而追踪研究是对同一个样本的研究，我们的样本没有发生变化，第一次取样后，我们就一直针对这个样本进行研究。由于样本有时候是流动

的，因此我们做追踪研究的成本很高，花费很大。我们要跟着原来的样本流动，核实样本的真实性等等，因此做追踪研究的成本是很高的。但是花费高成本来做追踪研究是有回报的，因为追踪研究要比汇集的横向研究提供更多的信息，得到的资料更加有效，科学价值更大。利用这些资料，我们可以做出更好的，更科学，更可信的研究，这就是我们花这么多钱和精力去做追踪研究的原因。例如从1972年开始，美国做了一个“全国高中生纵向研究”的项目，研究者抽查了一部分在1972年读高二的学生，然后于1973、1974、1976、1979和1986年分别对第一次抽样调查的那批人进行追踪调查。这是由政府出资，由大学学者做的，做出来的资料在全国范围内共享，谁要用都可以，我就用这个数据做了我的博士论文，现在我还在用这个数据做关于教育方面的研究。为了让你们更明白趋势分析和追踪分析得到的数据的差异，我给你们举一个例子。

这是性别与劳动参与情况的表格

1970年 1980年

有工作无工作有工作无工作

男性 90 10 85 15

女性 50 50 60 40

在所抽样本中，1970年男性有90％有工作，10％无工作；女性50％有工作，50％没有工作，而到了1980年，男性85％有工作，15％没有工作，女性60％有工作，40％没有工作，可见在这10年内，女性的就业率有所增加，也表明女性的社会地位有了提高。这种研究是趋势研究中比较典型的，他是通过横向分析的数据汇总而来。但是在1980年的数据中有工作的人到底是在1970年就有工作，还是原来没有工作后面找到工作，而1980年没有工作的是1970年有工作的还是1970年就没有工作的呢？这些问题我们从这个表中就得不到解决。因此，趋势分析只是能够看清研究对象的发展趋势，但是它有很大的缺陷，就是无法知道具体个体的变化。这种缺陷要怎样来弥补呢？下面我们来看一下第二个表格。

男女

80年有工作 80年无工作 80年有工作 80年无工作

70年有工作 80 10 15 35

70年无工作 5 5 45 5

从这张表中，我们就能看到男性中1980年有工作的人有80％在1970年就已经有工作了，有5％在1970年没有工作，到了1980年就已经找到了工作。另外有10％的人在1970年有工作，因为某种原因如退休，失业等，到了1980年就没有工作了。而有5％的人在1970没有工作，到了1980年还是没有工作。在女性中，1970年有工作的只有15％在1980年还有工作。而在80年有工作的女性中有45％在1970年没有工作，可见女性做临时的工作比较多。从这张表中我们就能很具体地看出具体的人群的就业情况的变化。这种研究是追踪调查中比较典型的，他包含的信息量就比趋势分析得到的信息量要多得多。这就是我们为什么花费很高的成本去做追踪调查的原因。追踪调查比趋势调查能提供更多的信息，并且根据追踪调查你可以推断趋势，因为你能掌握不同个体在不同时间的状况，把这些个体汇总后就是总体的化趋势，而趋势分析仅仅能够知道研究对象大致的变化趋向，但是不知道总体中具体的个体的变化。我马上要接着讲下一个题目，现在有什么问题大家可以问。

问题一：谢教授，我想问一下追踪调查是不是一定要以个人为单位？

谢教授：不一定，这要根据你的分析单位具体而定。如果你的分析单位是组织，是学校等，就不是以个人为单位。因此追踪调查的单位要视具体的总体的分析单位而定，并且在调查中分析单位不能变。你要根据你的分析单位来抽样，抽样好了之后就要追踪这些样本，收集他们的信息和资料。

问题二：追踪调查的时间是怎么选定的？

谢教授：这是一个很好的问题，这要根据你对这个问题的了解。在这里，经验研究很重要，理论也很重要，理论就是你对这个世界的了解，你对全部现象的了解综合而成就是你的理论。因此对时间的选择关键在于你对这个事件的了解，如果他变化很快，你定的时间就要频繁一点。比如教育，教育在70年代变化特别大，因此那个调查项目在73年、74年连续调查了几年，你上不上大学，上大学又上什么专业，毕业后有什么打算，这都是变化很快的，因此要比较频繁地进行调查。而有些东西的变化就比较慢，如人口的增长，退休后老年人生活状况变化也变化较慢，像这些现象就可以间隔较长一段时间做一次调查。所以选定追踪调查时间要看你所要调查的社会现象的变化速度，变化速度较快，前后调查间隔的时间就要较短，变化速度较慢，间隔时间就可以相对长一些。

问题三：如果选择的分析单位是一个群体和一个组织，如果在一段时间内组织内部发生了人员变动，这会不会是追踪调查退化成趋势调查？

谢教授：这个一个比较复杂的问题，这个问题的关键还是分析要看分析单位是什么，假如分析单位是机构的话，你设计的观察项目和指标就会跟观察个体有所不同。因此你在做机构和组织的追踪调查的时候，你不需要考虑到组织下面个体的变化。比如研究企业的，我们就追踪企业的发展变化，看它什么时候诞生，什么时候转型，什么时候破产等。虽然在追踪组织的时候，组织内部的人员结构，人员个人能力等都会发生变化，但是这些都不是我们要追踪的范围。

问题四：追踪研究可以推断出趋势的变化，那它是不是可以代替趋势研究？

谢教授：这个问题很有意思，很多人都认为可以，所以美国可能成为较早的不用趋势研究而直接用追踪研究的国家，因为如果你能够对每一个个体都进行追踪的话，就可以不需要趋势研究了。这就有两个问题，一个是成本的问题，追踪研究的成本很高，花费很大，它要比趋势研究贵很多。第二个是追踪研究的对象会有损失，由于很多原因比如研究对象不愿意被研究，或者是你找不到原有的研究对象等，这些原因就会导致一些追踪调查无法进行下去。所以，你假如要用从留下的人那里得到的资料做一个推广的话，就一定要做一个假设，就是没有被追踪的人可以用已经被追踪的人来代替，可以用统计的方法来推论他们的情况。因为这里需要做一个假设，所以很多统计学家对这个不满意。还有一种方法就是不断地补充，像一个渠道一样，一定要有源头活水，这样才能保证样本的新鲜性，从而使调查资料更具有科学性。

问题五：这种追踪研究能否反映总体的结构变化？

谢教授：应该是可以的，虽然有一些东西通过追踪调查还是观察不到，但是就趋势调查和追踪调查来讲，趋势调查能做的，追踪调查基本上都能做到，只要总体不发生变化，保证了这一点，就可以通过追踪研究来观察总体结构的变化，因为你不仅能够知道总体的变化趋势，你还能知道具体的个体的变化情况，因此通过对个体的全面了解，你就能够把握总体的结构。下面我们接着讲下一个题目。这个题目叫概念化（Conceptualization），概念化实际上是把理论的东西变成可以测量的东西，我会先给它下一个定义，再讲一下概念化的三个测量维度，然后再比较一下这三个维度，再给你们一个例子。先给你们一个定义，概念化是建立并澄清概念的过程，也就是用语言和例子来说明一个概念，以期得到一个准确的定义。只有对概念给了一个准确的定义以后，我们在研究和讨论问题时才会有一个相同的起点，否则公说公有理，婆说婆有理，这就很难形成一个共识。因此概念化就是要把不同的观点放到同一个平面上，给他一个定义，这个定义就是一个共同的起点，有了这个起点，其他的研究才可以进行。比如什么是教育，上学是教育，实践也是教育，但是当我们研究教育时，我们就必须对教育下一个很明确的定义，给出一个概念。这就是我们经常把教育定义为在学校中得到的知识和培训。这样就把教育限定在学校中，你在学校之外得到的知识和培训就不算教育。有了这个概念以后对教育的研究才有了一个共同的起点，一个出发点。为了让大家进一步了解概念的含义和测度，我要问你们一个问题。什么是社会地位，划分社会地位的标准是什么？

学生一：社会地位有很多种，一种是根据财富划分的社会地位，一种是根据政治职位，还一种是根据职称，比如教授等，还有可能是根据年龄和血缘关系等，这都可以用来划分社会地位。

谢教授：你讲的都是具体的标准，但不是概念性的。假如我们是讲理论上对社会地位比较重要的概念，你会想到什么？

学生二：职业及其社会影响。

学生三：个人在不同社会阶层中的地位。

学生四：社会地位的不同，关键在于划分的标准不同。

谢教授：那什么标准比较重要呢？

学生五：占有资源的标准。

谢教授：资源，还有呢？

学生六：声望。

谢教授：好，讲的很好。从我自己来看，衡量社会地位时，有三个概念很重要，你们讲的东西都可以用这三个来概括。一个是财富，一个是声望，一个是权力。有财富就有社会地位，但是有钱也不是万能的，如果他只是有钱，而没有声望和权力也不行，哈佛的教授工资不是很高，但是他们很有声望，因此声望也是一个很重要的标准。有的人他的工资不高，声望也不高，甚至有时候还有点坏，但是他很有权力，这也能给他带来很高的社会地位。但是这三者不是一样的，有的人有财富但没有声望和权力，有的人有声望但没有权力和财富，有的人有权力但没有财富和声望。当然，很多人都想同时拥有这三样东西，但这是很难做到的。

这个例子讲的就是一个理论上的概念可能会有不同的测量维度。维度就是根据不同的含义区分成不同的类型，这些类型就被称为维度。一个概念可以包含几个维度，因为有的概念无法通过一个维度来测量。在概念化中，我们就可以给社会地位三个维度：财富，声望和权力，这三者是衡量社会地位的三个维度。当维度不能被直接观察时，这个时候就要用到指标来观察。指标是很具体的，是可以直接被观察到的，是概念具体的量化标准。比如为了衡量权力，我们可以用这样一些指标。一个是管辖的人数有多少，管辖的人数越多说明你的权力越大。另外一个是管辖范围有多大，管辖的范围越大，你的权力越大，比如系主任管辖的范围就太小，而军官管辖的范围就很大。这就说明系主任的权力较小，而军官的权力很大。衡量权力的指标还包括每年的预算的制定，你每年的预算也是对你的权力的衡量，你的预算越多，你的权力越大，尤其是在计划经济时代，预算越多，要的越多，下一次预算就更多，这是计划经济体制的弊端。另外一个衡量权力的标准是你所控制的设施的多少，你掌握的设施越多，你的权力就越大。

下面我们来比较一下概念、维度和指标。这三者在某种情况下是一样的，可以相互转换，比如一个研究对象只有一个概念，一个维度，一个指标时他们三者就是一样的，而他们的区别就在于概括的层次不同。概念是高度的概括，维度是一般性的概括，而指标是很具体的。所以这三者的关系就在于具体的程度。有的概念比较简单，比如性别，概念，维度，指标都是性别，只有两种可能。一个概念可以存在多个维度，一个维度可以有多个指标。当一个概念只有一个维度，而且这个维度只有一个指标时，这就是一个变量。变量是一个统计术语，是指可以取不同的数值的量，维度和指标都可以是变量。比如权力，可以大可以小，这就是一个变量。性别可以男也可以女，这也是一个变量。在复杂的情况下，一个概念可以有几个维度，一个维度可以有不同的指标。指标是一个操作性的东西，是具体的，概念和维度是比较抽象的东西，是思想性的。下面我们讲测量（Measurement）。当我们谈到测量的时候，就必然涉及到变量和指标。因为变量和指标是很具体的，我们在做测量时必然要引入变量，而变量的测量要通过指标来表示。测量就是给分析单位赋以一个具体的数值，以表示变量的类别和差异。这个数值在不同的情况下表示不同的意义，很多人在这方面会犯错误。测量就是要抓住事物之间的差异，通过一定的指标来衡量这种差异，把研究对象区分开来。我刚才讲了数字在不同的情况下含义是不一样的，为什么呢，因为测量的时候有不同的尺度，用不同的尺度测量出来的数值表示不同的意义。

因此我们接下来要讲测度的类型。测度的类型有四种，名义测度，次序测度，间距测度和比率测度。名义测度是根据某些变量，将案例区分成两个或者多个类别。比如你把所有的人分成不同的类，好，中，坏等。名义是可以任意赋值的，这些数字是代表任何数学意义的。比如白人＝1，亚裔＝2，黑人＝3，因此这些数字本身并不代表任何数学意义，它不能用来进行运算，这里的数字只是起到一个区分的作用。这里的分类有两个原则，一个是穷尽性，就是每个个体都必须归到其中一类，第二个是排斥性，就是一个个体不能归到两个或多个类。测度的第二种类型是次序测度，在次序测度中，赋值只是表示一个维度上的排序位置，它只能说明排序的高低，比如最典型的立克特量表。事实上次序测度并没有内在的测度标准，你仅仅知道他们之间的相对排序，不能用来做简单运算。假如你想知道不同测度之间的差距，你就要用到间距测度。间距测度假设数字间有相同的距离或间隔，间距测度的数据不仅表示排序位置，而且也表示数值。如果一个间距测度有一个绝对零值时，那么这个间距变量就是一个比率测度变量。比如重量，它有一个绝对零值，它还有单位，因此它是一个比率测度变量。下面，我们来比较一下这四种测度，名义测度只告诉你分类，次序尺度不仅告诉你分类，还告诉你各个类型之间的排序，间距测度不仅告诉你分类，告诉你次序，还告诉你大小，而比率测度则既告诉你分类，告诉你排序，告诉你大小，还告诉你绝对零值。所以这四种测度是由一般向特殊变化的，最一般的是名义测度，所有的研究都是从这里开始，因为最开始我们要根据研究对象的差异分出不同的类别，然后随着研究的深入，测度也要不断地特殊化，具体化。

下面，我们讲估计的基础知识（Basics Of Estimation）。统计的知识很多，书本上讲的不是很难，但是要问为什么就比较难。所以我想给大家重温一下估计的基础知识。我们做统计，首先要知道我们做统计是不得以的，如果我们可以直接研究总体的话，我们就不需要样本，就不需要统计，因为我们做统计是用样本来推论总体，如果我们能够直接对总体进行研究分析的话，我们就可以不需要统计。什么是总体，总体就是在一个封闭的系统中，所有元素的完全排列。样本就是总体中的一个子群，总体中的任何一个子群都可以叫样本。我给你们举一个例子，我住的那个地方1990年普查的时候有109592个人，我们抽了一个1096个人的样本进行研究。我下一次会讲到具体抽样是怎么抽的，在这里先不讲。然后是参数与估计。具体而言，我们研究总体就是要研究总体的参数，参数是总体的某个特征，比如中心趋势的测度和离散趋势的测度等。我们用sita来表示总体参数（population parameter），这个总体参数是我们永远得不到的，我们只能通过估计来得到一个尽量接近总体参数的估计值。估计是根据样本来推算真实参数的估计值，这就是样本估计值，用T表示。样本估计值也被称作样本统计量（sample statistic）。这里有两个名词我希望大家能记住，一个是总体参数，一个是样本统计量。我们想要总体参数，但是我们得不到，我们只能通过样本统计量对它进行估计。比如我们想知道以下总体的参数，如总体的均值，总体的方差，总体的相关性，总体的交互表等。我们就可以通过样本统计量来对总体参数进行估计，比如用样本的均值来估计总体的均值，用样本的方差来估计总体的方差，用样本的相关性来估计总体的相关性，用样本的交互表来估计总体的交互表。样本统计量是我们可以计算出来的，通过样本统计量来估计总体参数就叫做统计推论（statistical inference）。统计推论是用来评价样本统计量的可靠性的一种方法。对于任何总体参数都会有许多样本统计值，为了评价样本统计值的好坏，我们就要进行统计推论，而要进行统计推论，我们首先必须对总体进行抽样。最简单的抽样方法就是回置的简单随机抽样。它有几个特点，一个是简单，简单是指总体中每一个元素被抽到的概率是一样的，随机是指任意抽取样本，回置就是指抽中的元素要重新放回总体。回置还要看总体和样本的大小，假如样本相对于总体而言很小的话，回置与不回置是没有多大区别的。我在这里举一个例子，在一个封闭的区域内，科学家要怎样来估计熊猫的数量。这里使用的方法是一种我们很常用的方法，叫做“捕捉――再捕捉”的方法，这里有一个假设，就是假设捕捉是完全任意的。我们先捕捉一批熊猫，做上记号后放回去，过一段时间后我们再捕捉一批熊猫，看第二次捕捉到的熊猫中有多少是第一次捕捉到的，如果第二次被抓住的熊猫中很多是第一次被抓住的，就说明总数很小，而如果第二次被抓住的熊猫中很少是第一次被抓住的，就说明熊猫的总数很大。假如通过抽样我们得到这样一个数据。

第二次捕捉总数

捕捉到未捕捉到

第一次捕捉捕捉到 10 90 100

未捕捉到 90

总数 100

第一次抓了100只，第二次又抓了100只，第二次抓的100只熊猫中有10个是第一次抓到的。我们假设这两次捕捉是独立的，是不相关的，那么两次被抓住的可能性是第一次被抓住的可能性乘上第二次被抓住的可能性，我们假设熊猫总数为N，第一次被抓住的概率是100/N，第二次被抓住的概率也是100/N，而两次都被抓住的概率则是10/N，就有100/N乘上100/N等于10/N，算出来的N就是1000。然后我们要讲估计值的抽样分布，我认为统计中很大的一个障碍就是你们不了解抽样分布。当我们做统计时，我们并没有观察总体，而仅仅是观察了一个样本，假设我们从一个总体中重复的抽样，所抽取的各个样本可能是不同的，根据许多次重复的抽样，同一估计值可以形成一个分布，这就是抽样分布。在我们实际的操作当中，我们总是把自己通过统计得到的样本统计值放在抽样分布的中间，认为即便这种分布会发生变化也只是在这个样本统计值左右变化。这种分布是假设性的，因为我们只取了一个样本，只得到了一个样本估计值，而其它的估计值是在假定的重复抽样条件下设想出来的，因此这种抽样分布是假设性的。今天我们就讲到这里，谢谢大家！

马戎主任：由于时间关系，我们就不提问了，今天的讲座就到这里。

五、忽略变量偏差和生态学分析

主讲：谢宇教授（美国密西根大学社会学系教授）

主持：马戎教授（北京大学社会学系主任，博士生导师）

时间：2002年10月28日晚7：00－9：00

地点：五四体育馆体教报告厅

马戎主任：今天谢宇教授给我们讲方法论的第四讲，希望大家在讲座期间尽量少走动，以保持安静。好，下面我们用掌声欢迎谢宇教授。

谢宇教授：谢谢大家！这是方法论的第四讲，上一次我把社会学方法的基本概念介绍了一下，今天我先把上次没有讲完的抽样理论讲完，然后我会讲到忽略变量偏差与生态学分析。今天的内容比较多，可能提问的时间会比较少。首先我们讲抽样设计，这些你们都已经学过了，我在这里只是给你们做一个简单的复习。第一个是简单随机抽样。它实际上是一个很简单的操作，先给总体中的每一个元素一个数值，然后通过随机抽取一部分作为样本，这个过程经常是由计算机来操作的。这种方法与抽奖是一个道理，简单是指每个元素被抽到的概率是一样的。第二种抽样方法是系统抽样或叫等距抽样，是先根据总体的规模和样本的规模计算抽样差距，然后对总体的所有元素进行排序，根据抽样差距把总体分成等距的多个部分，在第一个部分中随机抽取一个元素，然后按照抽样差距依次抽样。这种方法比简单随机抽样还简单，但是使用这种方法时要注意一点，就是在对总体进行排列时，排列顺序不能与自然排列有关，否则抽出来的样本就不具有代表性，可能会忽略很多重要的信息。要强调的一种抽样方法是分层抽样，分层抽样要比简单随机抽样和系统抽样更复杂。但是任何方法都是有得有失的，付出的代价越多得到的回报也越多。分层抽样虽然复杂，但是他有他的好处，他抽出来的样本保证了某些重要特征的代表性。比如我们要抽取一个样本容量为100的样本，假如我们用简单随机抽样的话，我们无法保证样本的性别比。但是如果我们的研究需要保证男女性别比例相同的话，我们就要用分层抽样的方法。我们先把总体分成两个子总体，在这个例子中我们先把男性和女性分成两个不同的子总体，然后在每个子总体中随机抽取50个人，这样就保证了男女性别比为1：1。这种抽样方法用的很多，在研究不同种族，不同地区，贫富差距等问题时，我们都可以用这个方法来进行抽样

。有了分层抽样的基础就可以过度抽样。过度抽样是指当子总体比例不一致时，在一个子总体中抽样多，在另一个子总体中抽样少，目的是使样本比例比较平衡，因为在总体中他们的比例是不平衡的。比如研究贫困问题，贫困的人在总人口中是少数，如果我们要保证样本中有相对平衡的贫困人和非贫困人，相对于贫困人的总体而言，我们抽取的贫困人的概率就要比在富人中抽取相应数量的样本的概率更大。这种方法还可以用于做民族之间的比较研究。比如汉族人口占中国人口的绝大多数，我们在抽样时可以用过度抽样的方法，增加少数民族的人数，使各个组的比例比较平衡，这样就可以增加样本中任何一组的代表性。分层抽样的应用很多，在美国做研究时要分成南方和北方，在中国分成城市和农村，这就是为了保证样本的代表性。

整群抽样与分层抽样是相反的，它是从经济的角度考虑的，是为了省钱。但是要省钱就要付出代价，整群抽样的代价就是抽取的数据质量不高。比如我们对北大学生的经历很感兴趣，我们在抽样时，非常经济的一种方法就是我去随机抽取一个班级，把这个班级的所有个体作为一个样本，然后对他们进行研究。因此整群抽样是把总体分成不同的组，然后以组为单位进行随机抽取，抽到的组中的所有元素都进入样本。它跟分层抽样不同，分层抽样是先把总体分成不同的子总体，然后在每一个子总体抽取样本，这样就保证了样本的代表性，而整群抽样得到的数据的质量就不高。但是整群抽样比较实用，比如你要做一个乡村研究，你不可能在全国各地都抽取一个村庄进行研究，而只能进行整群抽样，虽然样本质量不高，但比较实用，也比较经济。另外一个是整群抽样获得的样本的有效性较低，因为整群抽样抽得的样本的内部重复的概率很大，很多样本无效，致使可用的样本数量大大降低。为了使整群抽样做得比较好，我们要假设各个群体之间没有很大的差别，假如这个假设不成立，抽取的样本比简单随机抽样具有更大的差异，从而降低样本有效性。比如就刚才那个北大的例子，我们要使整群抽样做得比较好，就假设北大学生在班级与班级之间没有很大的差别。他们的知识面，家庭经济条件，朋友关系程度等都比较相似。如果这个假设成立的话，一个班与另一个班没有很大的差别，这时整群抽样不会造成很大的有效性的降低，假如班级与班级之间差别很大，那么整群抽样对有效性的丧失就会很大，这个问题我在后面还会讲到。一般来说，整群抽样只会降低有效性，而不会增加有效性，降低多少，要看具体的问题。我现在用稍微系统一些的方法来讲这个事情，我们来探讨一下样本统计量中方差的来源。一个来源是总体差异，一个总体中的所有元素之间是有差异的，总体差异是元素差异的总和。我第一讲讲的就是社会现象之间有差异性，而且这种差异性是必然存在的，我们社会学研究也就是对这种差异的研究。我们之所以要抽样，就是因为总体内部各元素之间有差异，如果社会现象之间没有差异的话我们就没必要抽样了。我第一讲讲过社会科学与自然科学的区别就在于社会科学说研究的社会现象有差异，而自然科学可以通过一个典型现象得到真理性的规律，从而举一反三。社会科学就不行，他必须关注社会现实的总体，而总体内部是有差异的，这就要求我们在做研究的时候要进行抽样，从样本来推测总体。

既然总体内部有差异，那么哪一个元素被选择，哪一个元素不被选中就会影响到样本，从而影响呢最后得到的样本参数，具体的说是因为总体中的各元素的某一变量值不同，导致了元素之间的差异。因此我们要进行抽样，而抽样是一种随机选择，这种随机选择必然会造成另一种差异。因为你对不同元素的选择会直接影响到样本统计值。

可见，样本统计量中方差的来源主要有两个，一个是总体差异，这种差异是客观存在的，另一个是抽样差异，就是在对样本进行选择时造成的差异，这种差异其实是由总体差异决定的，如果总体之间不存在差异的话，我们就不需要抽样，也就不存在抽样差异。因此我们可以对总方差进行分解，把总体方差分解成两部分，组间差异和组内差异。组间差异是指各组平均值之间的差异，一个班级和另一个班级差在什么地方，就差在平均值。组内差异是同一组中各元素相对于组平均值的差异。方差分析就是组间差异加上组内差异。组间差异大的时候组内差异就比较小，而组内差异大的话，组间差异就会比较小。也就是内部异质性越大，外部同质性越强；内部同质性越强，外部异质性越大。因此分层在这个地方就有很大的作用，我们在做分层抽样的时候，通过分层就可以减少抽样方差，因为我们在对总体进行分层之后再抽样，这就控制了组间方差，抽样方差就只是组内方差，而由于分层之后组内元素同质性较强，因此组内方差也会比较小。各层之间的异质性越强，层内同质性越强，分层得到的精度越大。因此，假如层与层之间差异很大，或者层内部各元素较均匀的时候，我们使用分层抽样得到的效果就会很好，相反假如层与层之间没有什么差异，我们做分层抽样就没有什么意义。比如我们做城乡差别的研究，就必须进行分层抽样，因为城乡之间存在很大差异。另外美国的南方和北方也要分层，他们在经济上，文化上都存在很大差异，如果你不分层的话就会损失很大的精度。过分层抽样，我们就引出了设计效应。设计效应就是复杂样本设计的抽样方差与同样规模的简单随机抽样的抽样方差的比值。设计效应是一个比值，是复杂抽样方差和简单随机抽样方差的比值。那么分层抽样的设计效应会大于1还是小于1呢？因为我们做分层抽样的时候控制了组间差异，这就使得分层抽样的方差会小于简单随机抽样的方差，因此分层抽样的设计效应会小于1，仅当各层之间无差异时分层抽样的设计效应会等于1。而整群抽样的设计效应呢，因为整群抽样的样本有效性较差，内部差异较大，整群抽样的抽样方差会大于简单随机抽样的方差。因此，整群抽样的设计效应会大于1，仅当各群之间无差异时，设计效应会等于1。我们比较一下分层抽样和整群抽样就能看到，假如层间异质性很强，层内同质性很强时，用分层抽样的效果会比较好，精度会比较大。如果这种情况下用整群抽样的话，就会大大降低抽样的有效性。以上就是抽样的部分，这部分我们就讲到这里。

下面我们转入另一章，分析因果推论的潜在危险。从一定程度上来讲，我要讲的这一部分是第二个讲座有关因果推理的一个延伸，只是我们在这里加入了生态学分析。真正的因果关系是很难找到的，它有几个潜在的危险，一个是伪相关，一个是表面上的时间顺序，你不要以为知道了事情发生的前后顺序就能找到因果关系，发生在前面的不一定是原因，发生在后面的也不一定是结果。另外一个是忽略变量偏差，这个我们在上一讲中也讲到过，在这里我还要强调一下。第四个是样本选择性偏差，我刚刚讲完了样本选择的问题，因此我们要到现在来讲样本选择性的偏差。

我们先讲伪相关。A和B之间有关系，但是这种相关是通过C来实现的，假如A和B的关系是又C造成的，那么A和B在表面上的因果关系就是伪相关。比如有人认为数学成绩取决于语言能力，语言能力越强，数学成绩越好，这里就忽略了一个智力因素，智力强的人语言能力强，数学成绩也好，因此语言能力与数学成绩的相关是通过智力因素来实现的。语言能力与数学成绩之间的因果关系就是伪相关。第二个就是表面上的时间顺序。我曾有幸和一位社会学大师进行过一次座谈，他对我讲，社会科学要找到真正的因果关系是很难的。当时我就提出来是不是能够根据事情发展的前后顺序来寻找因果关系，在前的是原因，在后的是结果，因此我们通过纵向研究就可以找到这种因果关系。他立刻提出了反对意见，他举了一个例子，圣诞节前夕会有一个购物高潮，那么是圣诞节造成了这种购物高潮，还是购物高潮造成了圣诞节？我一想，这确实很有道理。我们人的行为是有目的性的，这种目的性促使我们去预测事物的发展方向，从而提前做好某些准备，这就导致了有些事情结果在前，而原因在后。有很多人做很多事情是为了将来，而不是为了现在，因此我们要侧重从理论上对它进行分析，找出真正的因果关系。第三个威胁到因果推论的因素是忽略变量偏差，这一点我们前面讲过了，我这里再强调一下。忽略变量偏差的产生要有两个条件，一个是忽略的变量要与自变量相关，另一个是忽略的变量要与重要的因变量相关。这两个条件都要成立，缺少其中一个都不会造成忽略变量偏差，我等下讲到生态学分析的时候会再讲到这两个条件。

问题：谢教授，我想问一下忽略变量偏差和前面的伪相关有什么区别吗？他们都是因为忽略了一个中间变量而造成的。

谢教授：这个问题问得很好，从统计上来讲，它们之间是没有区别的。这是一个概念性的东西，这四个因素在本质上都是一样的，我只是根据比较传统的方法把他们区分出来，但是在统计学意义上，他们是一样的。我这里把忽略变量偏差强调出来，其实其他几个都是忽略变量偏差的一种表现形式，而忽略变量偏差也是其他几个的表现形势之一，其实从统计学意义上而言，他们在本质上是一样的。

我再举一个例子，假如北京有两家医院，一家非常好，有先进的设备，一流的医生，管理和服务也特别好，另一家是很差的医院，设备陈旧，技术落后，医生医德不好等等。假如你以哪个医院死的人少来衡量医院的好坏的话，就会出现忽略变量偏差，因为肯定是好的医院死人多。死亡是与病情有关的，病情越严重，死亡率越高，另外病情越严重越容易被送到好医院，因为差的医院看不了，所以好医院死的人会比差医院要多，如果你忽略了病情这个变量的话，就会造成忽略变量偏差，因为病情严重与否与死亡有直接关系，另外病情的严重程度也会影响到对医院的选择，因此忽略了病情因素而得出死人少的医院是好医院的结论造成了忽略变量偏差。

第四个是抽样选择性偏差。假如你所得到的样本对总体没有很好的代表性，就会造成抽样选择性偏差，比如有一个面对物理学研究生的奖学金，这个奖学金是根据研究生入学考试GRE的三个部分成绩来评定的，一个部分是语言，一个部分是数学，一个部分是分析。物理学家不知道该把奖学金给哪些人，就请了一个社会学家来评定。最后社会学家认为这个奖学金应该给语言能力好的人，为什么物理学系的奖学金要由语言能力来决定？因为申请这个奖学金的人都是数学和分析能力很强的人，他们的差异关键就在于语言能力。这个问题的关键在于样本的选择性，假如他这个奖学金是面向所有同学的话，就不会出现这样的结果，而他的样本是来自于读物理学的研究生，所以才出现这样一个抽样选择性偏差的

问题。

接下来，我举另外一个例子，这是一个模型，叫Willis and Rosen模型。他们这个模型讲的是高等教育的经济回报的问题，他们认为有些人通过接受高等教育能够增加他们的生产能力，这些人如果不让他们去读大学而是让他们去从事体力劳动的话，他们创造不了多大的社会价值。另外，有些人你让他去接受高等教育反而不如让他去接受生活技能的训练，读大学对他们没有什么收益。这就是两组不同的人，一组人不读大学要比读大学要好，一组人是读大学要比不读大学好，如果你让这两种不同的人去做他们不擅长的事情，他们就不会有很大的发展空间。这就是一种自我选择，高等教育的经济回报有的人高，有的人低，回报高的人就去读大学，而那些没有去读大学的人正是那些回报低的人。人和人是不一样的，去读大学的人正是因为回报高才去读，不选择读大学的人，他们选择了另外一种适于他们工作，并且回报高的职业。因此高等教育的回报率是因人而异的，如果你在抽样的时候不考虑到这种差异，就会出现抽样选择性偏差。

下面我们要切入今天的正题，就是生态学谬误。生态学谬误是这样一个错误，对于汇总层次上的信息判断到组成这个汇总层次的低一级分析单位上，这就可能犯了生态学谬误。就是你把高层次的信息、经验、发现应用到低层次的分析单位上，你就可能犯了一个错误，我要强调这只是一种可能的错误，这种错误就叫生态学谬误。也就是说假如你利用汇总层次的证据或事实，你把这种证据或事实作为对个体的推理，你的理论是建立在个人层次上，你就可能犯了生态学谬误。我给你们举一个例子，有两个班级，A班和B班，A班学生学一门课的平均时间是10小时，平均成绩是90分；B班学生学这门课的平均时间是15小时，而平均成绩是80，由此我们得出结论：虽然A班学生比B班学生花的时间少，但成绩比B班学生好，因此学习时间和成绩是负相关的。这个结论对不对，那个地方有问题？问题就出在这里，你的理论假设是在个人层面上，花多少时间学习是个人的事情，而你的结论是以班级为单位的，统计数据也是在班级层面上，这两个不吻合，这就有可能造成生态学谬误，不能由此得出学习时间会造成成绩负效的结论。这里可能的现象是在一个班级里面，就个人而言，学习时间对成绩是正相关的，但是由于两个班级学习起点不同，智力水平不同，一个班级学生花的时间少，但是成绩提高较快，另一个班级学生花的时间较多，但是成绩提高较慢。因此对于个人而言，花的时间的多少和学习成绩是成正向关系的，但你平均了以后，在班级的单位上就是负面关系，这就是一个很经典的生态学谬误。

我们讲生态学谬误就必须讲到Mr Robinson，他是一个很有才华的社会学家。他在1950年发表了一篇论文，这篇文章已经成为一篇很经典的文章，我现在都常教导学生去读这篇文章。在他这篇文章里就提出了生态学谬误的问题。这篇文章产生了一个危机，对他自己也产生了一个危机，在他写完这篇文章后就决定歇笔了，为什么呢？因为1950年以前，所有的数据都是汇总的数据，都是以地区为单位的，Robinson就说假如我们社会科学的目的是要了解人类的行为的话，这种汇总数据是不能用来推论人的行为的。人们为什么结婚，为什么生育，为什么上学等等，假如我们要研究这些的话，用汇总的材料是办不到。因此Robinson在写了这篇文章后，就决定不再做研究了。

这是对社会学的一个很大的挑战，这个危机也给下一代人带来了机会，这就是“调查革命”。这个“调查革命”的发起就是为了应付Robinson提出的挑战。在研究中，我们不用政府提供的汇总材料，而去做个体和家庭的研究，收集个体层面上的资料。我们密西根大学社会学系在那个时候就做出了很大的贡献，不仅从理论上，也在实践上做了很多事情，这些我会在星期五的关于美国社会和美国社会学的讲座中详细讲到。调查革命就提出来要收集以个人为单位的，这种单位是要与你的理论层次相一致的数据。你们没有经历过那段只有汇总数据的日子，当时所有社会学研究用的都是政府提供的汇总数据，正是因为有了调查革命，才有了密西根大学社会学系的兴起。我再讲的另外一个人物叫Gary King，他是哈佛大学的一个政治学家，他最近出了一本关于生态学谬误的热门书。他这本书里讲的是怎样解决生态学谬误，你们如果对这个感兴趣的话，可以去看一下他这本书。下面我们要讲一下为什么会产生生态学谬误，是因为未观察到差异性偏差或忽略变量偏差。这就回到了刚才那位同学问的问题，其实这些原因在本质上是一致的，忽略变量偏差只是其中的一种表现形式。这里我们就要回顾一下造成忽略变量偏差的两个条件，一个是忽略的变量要和因变量有关系，另一个是忽略的变量要与自变量有关系。在那个学生成绩和花的时间的关系的例子中，忽略的变量是什么？就是学生的个人学习能力，学习能力强的学生花的时间少，学习成绩也好，学习能力较差的学生花的时间多，成绩还相对较差。也就是说学生的学习能力既影响到学生的个人学习时间，也影响到学习成绩的好坏，因此当你忽略了学习能力这个变量时就会造成忽略变量偏差。另外一个是这种差异是以班级为单位的，假如班级与班级之间不存在能力的差异的话，也不会出现这种忽略变量偏差，因此你在寻找差异的时候是应该找以班级为单位的原因，而不是找以个人为单位的。我先讲抽样，再讲生态学谬误，然后才讲忽略变量偏差，其实当我们在利用抽样获得的数据进行分析的时候，可能出现的错误都是因为忽略了某些变量造成的。下面我们再来举一个例子，这是一个忽略变量偏差的例子，不过这里也有生态学谬误的因素。这是一个真实的例子，佛罗里达州是还保留有判死刑的一个州，有一个社会学家花了20年的时间做了一个调查，对300多个凶杀案进行了分析。凶杀案是很容易被判死刑的，在美国种族问题是很敏感的问题，在判刑的问题上是不是有种族歧视，是不是黑人更容易被判死刑？我们来看

下面的数据。

佛罗里达州20个县的326位被告凶杀案的有关信息

被告人的种族被判死刑总计比率％

是否

白人 19 141 162 12

黑人 17 149 166 10

在326位被告人中，白人有162位，其中19位被判了死刑，所占比率为12％。黑人有149位被告犯了凶杀案，被判死刑的有17位，占10％。这个数据和我们的最初的想法刚好是相反的，白人被判死刑的概率比黑人还要高。请问为什么？

学生一：可能白人和黑人犯的罪行不一样，白人犯的罪行更严重。

谢教授：你们想一下造成忽略变量偏差的两个条件，被忽略的这个变量是什么，在这里它既要和种族有关系，又要和被判死刑有关系。如果这个变量是罪行的话，那么罪行和种族有什么关系，是白人更容易犯严重的罪行吗？

学生二：这可能和法官的种族有关系，一般法官会偏袒自己种族的人。

谢教授：显然，美国社会的白人法官要大大多于黑人法官，按照你的说法白人法官会偏袒白人的话，白人中被判死刑的人应该更少才对，怎么会更多呢？要注意忽略的变量应该与因变量有关系。

学生三：可能佛罗里达州的白人更多，黑人更少。

谢教授：我们的案例中被告凶杀案的白人和黑人的数量是差不多的。

学生四：是不是与被害者的种族有关系，如果被害者是白人就更容易被判死刑。

谢教授：对，讲的很好，原因就在这里。为什么呢，这里有两个条件，首先，被害者的种族和犯罪者的种族是相关的，第二是杀了白人更容易判死刑。通过下面这个图表就可以看出来。被告人的种族被害者的种族被判死刑比例％

是否

白人白人 19 132 12.6

黑人 0 9 0

黑人白人 11 52 17.5

黑人 6 97 5.8

可见，白人杀白人被判死刑的概率很高，黑人杀白人被判死刑的概率更高，而白人杀黑人就几乎没有被判死刑的，黑人杀黑人被判死刑的概率也比较小。因此这里忽略的变量是被害者的种族，当被害者是白人时，不管被告人是白人还是黑人，被判死刑的概率都较高，当被害者是黑人时，被判死刑的概率就比较低。可见，在美国，种族歧视还是很严重的。我们这里犯错误的原因是认为罪行是与罪犯的种族有关，而实际上被判的罪行是与被害者的种族有关的。因此，我们在考虑问题的时候，要把造成忽略变量的偏差的两个条件都考虑进去，忽略的变量是否与因变量有关系，同时这个变量是否与自变量有关系，只有当这个变量满足了这两个条件时，忽略了这个变量才会造成忽略变量偏差。上面这个案例

其实也是一个生态学谬误的问题，因为我们从第一个表中得到的结论是被判的罪行与罪犯的种族有关系，而实际上被判的罪行是和他所犯的罪行有关的，如果被害人是白人的话，被告人就更容易被判死刑。因此从这个角度来看，这也是一个生态学谬误。我举这个例子的目的有两个，一个是要让你们明确忽略变量偏差所需要的两个条件，另外一个是让你们明白忽略变量偏差和生态学谬误在本质上是一样的。

接下来我要讲多层次数据的处理手段，这部分是这一讲中比较新的东西，也比较难理解。多层次数据就是说你的数据的来源是多层次的，既有团体层次的数据，也有个体层次的数据。比如你的学习能力是个体的，家庭背景是个体的，但是教师水平，设备等都是以班级为单位的。假如你的研究单位是个体，你就不能用班级层次的数据来汇总；假如你的研究单位是团体，你也可以用个体层面的数据来汇总。我这里讲两个模型，一个是随机效应模型，一个是固定效应模型，然后再讲层次分析。我在讲到这两个模型的时候，会讲到组内差异和组间差异的问题。我先讲第一个模型，随机效应模型，在这个模型里，要引入组的概念，我们分析得到的数据时要分析两部分差异，组与组之间的差别和组内的差别。组与组之间的差异是随机的，我们对两个组各取一个平均值，两个平均值相减就得到了组内方差。假如各组之间没有选择性，那么既可以用组间方差，也可以用组内方差。在这种情况下，如果你仅有一组这一层的变量的话，就不会出现生态学谬误。在这里最好的方法是两个都用，这样得到的数据会更加科学。但是如果你只有一个层次的变量，你就只用这个也行，只是效度不如前一个高。由于随机变量模型无法完全解决这个问题，这就引入了固定效应模型，这一手段是用来控制“非观察的异质性”，组间差异不一定符合统计模型。此手段放弃组间差异，仅关注组内方差，它之所以被称为固定效益模型，是因为总体的异质性所产生的共同特征已被各组的阿尔法所控制。这种方法在方法论上不是很牢靠的，但是在方法论上很严格很站得住脚的方法，会牺牲很多统计的信息。最后一个就是多层次分析，第一个随机效应模型讲的是组与组的差异，这种差异是随机的，第二个固定效应模型就是把这种差异作为一个固定不变的东西，这种差异是不可以用统计模型来进行分析的。前一种是不对差异进行考虑，只把它作为一个随机变量，第二种是考虑这种差异，但把这种差异固定下来，不对其进行分析。这两者代表两个极端，他们居中的一种方法就是多层分析方法。这种方法有一个很强的理论来源，就是人与人是有差异的，而且人的表现，行为方式是随着环境的变化而变化的。那么我们就想知道人在不同环境下的表现是怎样的，他的行为是怎样的，这是社会学上一个很重要的东西。涂尔干提出了“社会事实”的概念，说人到了一个团体之中，就要受到环境的影响，行为方式也会发生变化。当我们想知道人是怎样受到环境影响时，就要用到多层次分析方法，这就是多层次分析方法的理论来源。在使用这个方法时，研究的因变量是个人层次的，但自变量（或解释变量）即可以是个人层次上的，也可以是更高水平层次上的，比如社会环境，学校，班级等。当你的数据具备这样的要求时，你就可以做多层次分析。多层次分析的关键在于宏观层次和微观层次的自变量的交互作用。自变量有两个层次，一个是个人的，一个是环境的。比如个人的行为随着环境的变化而变化，这就是说个人作为自变量时，其参数是随着环境的改变而改变的，这就是一种交互作用。因此，如果个人水平上的变量随着环境的变化而变化的话，你就可以做多层次分析。我可以给你们一个例子，这是我和我的一个学生做的一个研究。我们做这个研究实际上是为了批评一种市场交换模型。他这种模型认为教育的回报率是与市场发展程度成正比的，市场经济越发达的地方，教育回报率会高。为了反对他的观点，我们就做了一个地区差异比较，发现在市场经济发达的地方受教育水平较高，但是教育的回报率并不高。而在市场经济不发达的地方受教育水平较低，但是教育的回报率却比较高，而且市场经济发达的地方的教育回报率反而比市场经济相对不发达的地方要低。这就反映出很多光靠市场经济不能解释道问题。这种现象在单位中也存在，收益好的单位，大家得到的钱都比较多，但是差异并不是很大，也就是回报率比较小，反而那些收益差的单位，其领导得到的报酬比一般员工得到的要多的多，这是一个体制的问题。好，我今天要讲的东西讲完了，大家有没有什么问题？

问题一：谢教授，您讲教育回报率随着市场发展而降低，这里您有没有考虑到教育对政治资本的影响，是不是教育水平越高，政治资本越大，因此回报率也更高？

谢教授：我们考虑到了政治资本的因素，政治资本是不随经济发展而变化的，它确实会受到教育水平的影响，但我们这里讲的回报率是指经济回报率，不考虑政治因素。

马戎主任：由于时间的关系，我们今天的讲座就到这里。

六、选择性、实验法和评估研究

主讲：谢宇教授（美国密西根大学社会学系教授）

主持：马戎教授（北京大学社会学系主任，博士生导师）

时间：2002年10月30日晚7：00－9：00

地点：五四体育馆体教电教厅

马戎主任：今天由谢宇教授给我们做方法论的第五个讲座，大家欢迎！

谢宇教授：谢谢大家！今天是第五讲，也是方法论的最后一讲。我想把以前讲的东西归纳一下，再把一些新的思想介绍一下。感兴趣的同学可以根据我后面讲的东西去参考具体的文献，去掌握这些方法，我在这里只是简单介绍一下。今天的题目是选择性，实验法和评估研究。我会先把这个题目解释一下，下一个定义，然后再讲他们之间的关系。听过我的讲座的人可能会得到这样一个共识，就是社会学研究中最根本的问题就在于因为选择性的存在，观察数据所提供的变量关系可能是虚

假的。因为社会现象是多变的，是有差异的，因为这些差异性，我们在取样时就会产生差异，如果你不注意这些差异的话，你得到的变量关系就有可能是表面上的虚假关系。因此社会学方法论当中最根本的问题就是由于选择性的存在，使我们观察到的变量关系可能是虚假的。这是对我们最大的一个挑战。那怎么来解决这个问题呢？有两种方法可以解决这个问题，一种是用观察数据建立一个统计模型，也称为“结构法”。组与组之间的差别可能是不可比较的，那我们有一个办法，就是把各个组之间的差异全部测量出来，然后用统计的方法建立一个统计模型，把所有因素都考虑进去。比如我的一个老师，现在也在威斯康星大学做教授，他就讲过传统的社会分层的模型没有考虑到人与人之间的权力关系，而马克思就考虑到了阶级是由权力不平等造成的，因此他的模型能够解释更多的现象。这是一种方法，是用数据和模型来完善一些关系，弥补一些漏洞。但是这种方法有很大的缺陷，因为它不知道自己漏掉了什么，这就需要另一种方法，叫实验法，也可以称为“简化法”，是通过实验来解决选择性的问题。所有的方法都是这两种方法的演变和具体实现。

下面我们来讲评估研究，评估研究也称“项目评估”，是指试图评估社会项目的有效性的一种应用性研究。评估研究实际上不是一种研究方法，只是一种应用性的研究，其目的只是在于评估研究项目的有效性。我刚才讲了选择性，选择性大致可以分为两种。一种叫可观察到的选择性，这种选择性是指如果接受与未接受社会干预的两组研究对象在观察特征上是有差异的，那么这种选择性就称为可观察的选择性。在多元统计分析中，可以通过统计分析使这两种研究对象具有可比性，这就解决了可观察的选择性问题。另一种选择性是未观察到的选择性，这种选择性是无法测量到的特征的选择性。在社会学研究中，更为困难的问题就是处理未测量特征的选择性。这个问题是社会科学中最大的问题，你解决了这个问题就解决了社会科学中最大的难题。这个问题也被称为“内生问题”，原因是项目参与者对于被评价的结果变量而言是有内生选择性的。人是有目的性的，他是根据他的目的性在参与研究项目的，这种目的性就是一个内生问题，而不是受外来因素控制和影响的。这个问题比较难以解决，统计模型需要很强的不切实际的假设。有一位经济学家通过建立这方面的一个模型而得了诺贝尔奖。但是他这个模型需要的假设太多，难以操作化，因此现在对这个模型持批评态度的人越来越多了。因为他的假设太多，我们根本无法知道未观察到的选择性的存在性。这一潜在的威胁对所有根据观察数据进行研究的人都是存在的。我们做社会科学研究的人都是用的观察数据。只要我们用的是观察数据，我们在写文章，做报告时，我们的结论就有可能是错误的，因为有可能有未观察到的选择性存在。极端一点来说，所有的社会科学的观察资料都是不科学的，都是可以提出疑问的。我在星期五讲美国社会和美国社会学的时候，会讲到经验研究在美国社会学是一个很大的主流，但在最近20年，我们已经意识到经验研究和统计分析是有局限性的，并不是万能的，我们的数据和方法都是有缺陷的，我们的结论也有可能不成立。因为我们在做研究的时候要做出种种假设，不做假设就得不到这种结果，社会科学的统计分析中不做假设是寸步难行的。

那么这种观察性偏差是怎么产生的呢？我们就要探讨一下这种偏差的来源。一个来源是影响结果的未观察到的前提条件在组与组之间存在差异，就是说我们还没有做实验之前，组与组之间已经存在差异，即控制组与实验组之间存在差异。如上大学的人和不上大学的人之间就有差异，上大学的人能力比较强，工作比较努力，不上大学的人工作能力较弱，工作也不是很认真。假如你要测量这两组人，一组上了大学，一组没有上大学之后的生产能力的话，其实在他们都还没有上大学时，他们的能力差异就已经存在了，这就是产生观察性偏差的第一个来源。另一个来源是研究中未观察到的反映在组与组之间存在差异，有的人反映大，有的人反映小，有的人得益多，有的人得益少。也就是结果变量Y与未观察到的变量Z之间有相互关系。在教育的例子中，有一部分人通过接受大学教育后提高得快，一部分提高得慢。也就是你提供的机会和条件是一样的，但是不同的人的反映不一样，同样的输入，可能有不同的输出，这是另外一个来源。这两个来源都会导致观察性偏差。一个是没有观察之前就已经存在的差异，另一个是对同一过程的反映存在差异。我们回到第二讲关于简单比较那部分。我讲过简单比较要有两个假设，就是实验组对象与控制组对象大体上是相当的。一个假设是得到干预的实验组假如没有得到干预的话就和控制组没有得到干预的情况大体相当；另一个假设是没有得到干预的控制组假如得到了干预就会和得到干预的实验组的情况大体相当。第一个假设就是说实验组和控制组在起点上是相同的，在没有受到干预之前，实验组和控制组是大体相当的。有了这个假设，就没有了可能出现观察性偏差的第一个来源。而第二个假设是说如果控制组和实验组一样都受到干预后，实验组和控制组也是大体相当的，也就是在接受干预的过程中不会产生不同的反映，这就没有了可能出现观察性偏差的第二个来源。这两个来源都没有了，就不会出现观察性偏差。下来我们要讲实验，实验是指操纵某些变量来观察其它变量的作用的一种研究。实验是一种研究，这种研究的特征是我们可以通过人为的方

法来操纵一些变量，后面我会讲到怎样操纵变量。我们先来回顾一下产生忽略变量偏差的两个条件，一个是有关条件，就是忽略的变量要与主要的因变量有关，第二个是相关条件，就是忽略的变量要与主要的自变量相关，只有这两个条件同时存在，才可能产生忽略变量偏差。而实验的关键就是破坏产生忽略变量偏差的第二个条件 ――相关条件，就是使忽略的变量与自变量是相互独立的，这样我们就可以忽略这个变量。而在这里，第一个条件是无法破坏的，它是客观存在的。比如在我们讲的受高等教育与工作能力的例子中，你没有接受高等教育之前的能力水平，智力状况等等都是无法改变的，我们能够通过实验破坏的是第二个条件，就是使所有因素都和主要的自变量都成正交。讲实验的时候都要讲到内部有效性，内部有效性是指对于参与实验者而言实验所得的结论是有效的。假如存在这个有效性，那我们就说这个实验有内部有效性，合适的实验设计都可以建立内部有效性。最简单的实验设计法就是“前测―后测”控制组设计。我们先不考虑其他因素，只是通过随机抽样的方法选取样本。对抽取的样本，我们先对其进行检测，就是前测，看他们在接受干预之前的状况。在他们接受了干预后，我们再对他们进行后测，看他们的变化。在这个设计中，前测并不是必需的，其设计主要是为了提高准确性，而并不是为了避免偏差。另外，对于实验组合控制组的协变量的测度和考虑也不是必须的，其目的都是为了提高准确性，在样本很大的时候就不需要了。

很多人可能会不理解，为什么我们在统计的时候要考虑多方面的因素。一个原因是如果我们忽略了一些变量，就有可能造成忽略变量偏差，我们得到的结论就有可能是错误的；另一种考虑是我们要提高精确度，在你做实验的时候，如果你考虑了其他的变量，你的实验结果的精确度就会提高。但是一般来讲，你只能包括实验前的变量，而不能包括实验以后产生的变量，因为包括了这些变量，就会包括进很多假设，你得出的结论就是有前提假设的，这种结论就有可能是不可靠的。因此如果包括其他变量与不包括其他变量得到的结果不一样的话，你应该相信那个更简单的模型，因为它的假设条件少，结论更可靠。

讲完了内部有效性我们就要讲外部有效性。研究有可能是内部有效的，却是外部无效的。外部有效性要求在对结论一般化的时候，提出这样一个问题，就是你的实验结果在多大程度上是普遍适用的，它有多大的普遍意义。你不知道你的实验结果在实验对象范围之外是否适用。比如你在大学生群体中做的实验，你就不知道你的实验结果在没有上过大学的人中间适用不适用。许多因素都会威胁到外部有效性或代表性。一个因素是你所做实验的对象不能代表实验对象以外的总体，这就会产生样本选择性偏差。第二个原因是你做的实验得到的结果在小范围是适用的，在大范围就不适用，我在后面会给你们一个例子。

那么区别内部有效性和外部有效性是不是有价值呢？这种区分是一种传统方法上的区分，但这种区分是不是有价值呢？我们一直是认可这种区分的，但是绝大多数经济学家认为这是没有意义的。因为评估研究的最终目的是为了对实际项目的有效性作因果推理，如果研究是外部无效的，那么它就是毫无意义的，因此假如一个研究没有外部有效性的话，这个研究本身就没有意义。所以你的研究出发点就应该是建立在这个项目是不是有效，而不是说这个实验是不是有效。那为什么这么多年来这两者的区分会一直存在呢？这来源于心理学。为了证明小样本实验的有效性，心理学家普遍接受这两者的区别。心理学家的样本基本上都是小样本，虽然他们不敢保证他们的研究结果在整个研究总体中都是成立的，但是他们想证实他们的结论在他们所抽取的小样本中是成立的。因此他们就把内部有效性和外部有效性区分开来。但是很多经济学家对此是持批评态度的。我希望你们也能培养一种批评的态度。

下面我们转入下一个问题，讲一下准实验设计，准实验设计使用的范围很广，没有固定的模式，也没有固定的方法，有一些比较接近于实验法，有一些是用于特殊解释的多元回归，这只是一个标签。准实验设计是自然发生的，是在自然环境下发生的，不是人为强加一些变量进行控制的，研究者可以将类似于实验设计的方法应用到他们收集数据的过程中来。因为准实验设计是来自于自然环境，来自于观察数据，他的内部有效性就可能受损，严格来讲，准实验设计的内部有效性都不是完全的，都有可能不成立，你只能知道他的结果的可信性，你不知道他完全的可靠性。但是因为准实验设计的数据来自于自然环境，来自于实际社会，因此他的外部有效性得到加强。准实验方法其实是通过统计控制或结构方法来实现的。用观察数据时，我们不能通过随机指定来控制误差，这种误差就会影响到准实验设计的内部有效性。那么我们就通过多元分析来控制误差。我们把可能忽略的变量考虑到统计模型中，对它们进行测量。比如美国社会存在这样一个现象，就是老师的工资比较低，而且女老师的工资要比男老师的工资低。很多人就认为这是一种男女不平等。有一个研究就对以下变量进行了多元分析，一个是性别，一个是个人能力，另一个是课程。这个研究就发现，男老师因为个人能力比较强，他们教的课程多是理工类的，而女老师多教一些语言艺术类的课，而教理工类课程的老师的工资是要比教语言类课程的老师高的，因此男老师的工资比女老师高。这里就是能力和课程造成了男女老师工资的差异，但是造成这种差异的原因中可能还有其他我们没有考虑到的因素，比如性别歧视，但是性别歧视造成的差异不会大于现有的差异状况，而只会小于这个量。

我们再来考虑一下实验法，实验法的创始人就认为任何研究结论都要通过实验来验证。他当时还不承认吸烟对人的健康有害，他认为已有的研究结论都是建立在观察数据上，而观察得到的数据是可能有选择性偏差的，是不可靠的。但是我们现在还是肯定吸烟和导致肺癌是有直接的因果关系的，因为假设这其中有选择性偏差，那这种选择性偏差会极大的偏离其实际可能的数值，而这么大的偏差是不可能是由人的行为造成的。因此我们现在还是认为，虽然吸烟和得肺癌之间的因果关系是由观察数据得出来的，但我们现在还是相信这种因果关系。因为我们无法通过实验法来解决这个问题，我们只能依靠观察数据。实验法解决了选择性问题，这种方法又称为简单模式。下面我给大家举一个例子，我所住的城市旁边有一个城市叫Ypsilanti，这是一个比较贫困的城市。研究者在这里用实验的方法进行了一个学前教育的研究。一组人接受了学前教育，一组人没有接受这种学前教育。通过追踪调查发现，27年后，这两组人之间产生了很大的差异。接受过学前教育的人，他们的行为、收入等各方面表现都要比没有接受学前教育的人要好。这是比较著名的一个实验，这个实验现在还在继续。

我下面给你们介绍一篇文章，作者是Manski and Garfinkel。其中Manski是我的老师，他是一位经济学家，是经济统计学方面的专家。这本书的名字叫“evaluating welfare and training program”。在这本书的绪言中，他们提出实验设计有一个经常被忽视的缺陷，就是通常研究者不能将实验背景下取得的结果推广到自然环境中，你的结果在实验环境下可能是好的，离开了这个环境就有可能不适用，因此Manski and Garfinkel对实验法提出了公开的批评。事实上，简化模式的实验评估需要特殊的带有推测的结构性假设。这个假设就是个体与组织对项目做出反应回答时，实验的答案与真实的答案要是相同的。如果你不做这个假设，你的实验是徒劳的，实验结果根本没有实际作用。而这个假设在社会科学中是很难成立的，在实验中有效的结论，在实际生活中未必有效。我可以给你们举一个例子，在底特律进行过一个调查，调查的是问卷的回答率。研究者想知道怎样才能提高回答率。他们操作时采用了这样的方法，当被访者不愿意回答时，他们提出给一定的报酬，而且这个报酬的数量还随着被访者不愿回答的次数而增加。的确，收到钱的人的回答率要高于未收到钱的人。但是这个实验只是局限于一定群体，如果每个人都知道了这件事情后，你们再去做这个调查的话，就实施不了了。所以，很多情况下，你的理论可能是很好的，在真正实行的时候就会有一个反效应，尤其是在研究政策的时候更要注意这个情况。一个政策可能在小地区之内是很好的，但是当它被推广到全国时会是一个什么情况，会不会产生动荡，这都是很大的问题。所以你要考虑到整体，当你把结论从实验的环境推广到实际的环境时，情况就有可能发生变化。因此Manski and Garfinkel提出来的问题就是一个缺乏外部性的问题，是外部性受损的问题。关于前面这部分大家有没有什么问题？

问题一：经济学家经常用到思想实验的方法，我想问一下思想实验的方法有什么缺陷性？

谢教授：我们在做研究的时候，先要建立一个理论框架，而这种理论框架的建立就需要思想实验。另外当实验结果出来以后，你无法预测你的实验结果推广以后会出现什么情况，这时你也需要思想实验。但是这种思想实验还不是一个经验研究，还只是一个逻辑层面的思维。

问题二：谢教授，我想问一下是不是在一种极端情况下，内部有效性就意味着外部无效性？

谢教授：不一定，过分的强调内部有效性确实会损坏外部有效性，但并不是说内部有效性会完全否定外部无效性。好我接着讲，Manski and Garfinkel就建议以结构法作为起点，结构法是通过观察数据对因果关系建立模型的一种统计方法。这种方法是通过收集数据和理论上的因果关系来建立模型的。我们还是举启蒙教育这个例子，在这个例子中，我们就控制家庭的社会地位，父母对孩子的参与，家庭关系是否和睦，社区的关系，学校的好坏等等。我把能够考虑到的因素尽量考虑进去，建立一个比较完整的统计模型，这就是结构法。

下面我再给你们几个定义，一组是外生变量和内生变量。外生变量是指那些只能在方程中作为自变量的那些变量；内生变量是指那些在某些方程中作因变量，可能在其他方程中作自变量的变量。另外一组概念是结构方程和简化方程，结构方程是将内生变量作为自变量得到的理论性方程；简化方程是所有自变量都是外生变量的方程，即在简化方程中忽略了那些中间变量。我们来比较一下这两种方法，结构式方法的优点是：

第一，它是在自然条件下得到的，一些结果直接用于总体，相反，实验法得到的结果必须要推广。第二，它是建立在理论之上，但同时又可以

检验理论，相反，简化法只是对简单问题的简单回答，它不需要理论，它不回答有效性的问题，这种方法在科学上是有不足的，但是很实用。

简化法的优点在于：第一，在简化法中，内生偏差由于随机指定而被抵消，可以建立很好的内在有效性，而实验法在这里是有缺陷的。举一个例子，我们指定一部分人去学计算机，另一部分人不学计算机，但结果往往和我们希望的不一样，那些被指定去学计算机的人有一些对计算机不感兴趣，他们会想方设法去干别的事情。相反，那些被指定不能学计算机的人反而会通过种种途径去学习计算机。可见在这里，内生偏差不可能通过随机指定来消除，因为人的行为是有目的性的，为了达到这种目的，他们会充分发挥自己的主观能动性，内生偏差在这里会产生很大的影响，这样实验法就无效了。简化法的第二个优点是它只需要很少的假设，得到的结论更加简单；第三，它并不需要复杂的统计模型，因此

公众与政府官员很容易理解。

我下面要讲到的东西技术性比较强，可能花的时间会比较多，前面讲的有没有什么问题？

问题一：在生物学里，有一种小规模实验的方法，您认为这种方法能否在社会学中得到应用？

谢教授：我现在所知道的社会学的实验方法有两种，一种是小范围的实验，通过控制很多外部因素来实现，但这种方法不容易得到推广。还一种方法是大范围的，分层次，长时段的实验方法，这种实验花费很大，也比较难控制。这些方法采用生物学的模式是不大可行的，因为你无法保证调查对象的稳定性。

问题二：谢教授，我想问一下结构法是不是不存在内部有效性和外部有效性之分？

谢教授：结构法不谈内部有效性和外部有效性的问题，他的结果要么不成立，成立的话就是有外部有效性，因此他不区分内部有效性和外部有效性。

接下来我就讲几个研究设计方法。我先讲准实验设计方法，我会给你们举一些例子。一种是利用空间差异进行准实验设计，一种是利用时间差异进行准实验设计，还有一个是聚类设计。讲完这些之后，我再讲一下固定效应模型，然后再讲工具变量估计，这是结构法的一种特殊情况。

第一个是利用空间差异的准实验设计，在美国有这样一个实验，某一特定的政策在A州中实施，但没有在B州中实施。比如在一个州中把最低工资提高了，在另一个州没有提高，而且在其他方面，A州和B州是可比的，然后观察结果变量在A州与B州之间的差异。有些经济学家以为通过提供贫困群体的最低工资可以改善他们的生活状况。另外有些经济学家则认为提高最低工资水平反而会害了那些较贫困的人，因为最低工资提高后，物价也跟着上涨，物价上涨就导致需求下降，需求下降又导致失业增多，这样造成了一个循环，结果还是贫困人群遭殃。但是研究结果表明提高了最低工资后他们的生活状况并没有发生什么变化，物价也没有怎么上涨，失业率也没有提高，这和理论上是不太吻合的。还有一个例子是一位经济学家提出一个市场转型模型，这一模型认为随着经济改革的深化，市场会出现转型，而在这个转型过程中，教育回报率是随着市场经济的发达程度的提高而增大的。我和我以前的一个学生就做了一个研究，按照前面的模型，在中国经济改革的步伐在地区之间存在差异，教育回报率在地区之间的差异与经济改革深度在地区之间的差异就会是相联系的，经济越发达，教育回报率就越高。但是我们的研究结果表明情况恰恰是相反的，市场经济越发达的地区，教育回报率越低，而市场经济相对不发达的地区，教育回报率反而越高。这是我们利用空间差异做的实验设计。

下面我们讲利用时间差异做的准实验设计，比如我们想研究种族差异的持续缩小是否存在显著性，特别是民权运动以来，我们希望能够看到种族差异的缩小，我们就可以检验不同种族的社会政治经济状况在时间上的变化，是不是种族差异减小了。另外在检验教育成果的时候，我们也可以用到时间差异的准实验设计，比如我们要检验新的教学方法是否有效，我们就可以收集不同时点的教育水平，教育状况的数据，然后做一个纵向分析，就可以得出结论。虽然你不可能肯定你的因果关系的正确性，但是你可以增加它的可信度。

我们下面讲固定效应模型的例子，这个是一个血缘模型，一个人的成长，成功都和他的家庭背景，社会环境有关，这里就有两种处理方法，一种是把所有相关的因素都考虑进去。第二种方法是把所有因素中共享的部分固定，解除对这部分因素的控制，这就是固定效应模型。固定效益模型有一个假设，就是你观察的层次要比你考虑的层次要低。比如你考虑家庭层次，你要观察的就是家庭中的个人。如果你的理论是在家庭层面上，而你的观察的层面也在家庭的层面上的话，你就没有自由度。固定效应模型是给每一个分析单位一个参数，现在假设有1000个家庭，每个家庭有两个兄弟，我们的观察点一共有2000个。而实际上我们用的参数只有1000个，所以这里我们浪费了1000个观察资料，但是如果你只从家庭层面上抽取1000个样本进行研究的话，你就没有自由度了。固定效应方法的性质是它控制了所有共同的特征。这个性质的好处就是，在固定效应层次上，没有观察到的异质性也被控制住了。但是因为它控制了所有共同特征，这也使它浪费了许多信息。在上面这个例子中，我们就浪费了一半的信息。这里有没有什么问题？

问题一：请问一下，您说在固定效应层次上，没有观察到的异质性也被控制住了，这一点是怎么得出来的？

谢教授：用这个模型可以保证把所有观察到的共同特征和没有被观察到的不同特征都控制住了，这就是他的特点，其主要目的就是把观察不到的特征控制住。比如有些东西，像父母对孩子的感情等是无法观察的，我们就通过固定效应模型把他们都控制住。

问题二：您为什么说数据会损失一半？

谢教授：因为我们原来在个人层面上有2000个数据点，但我们考察的是家庭层面的，所以我们用到的只是1000个参数，这就浪费了1000个数据点，因此信息损失一半。但我们之所以要做2000个数据点然后再损失这一半的信息，这是为了保证研究的自由度。

最后一个方法是工具性变量方法，现在很多领域都考虑到这种方法，但是各个领域对它的使用不一样。这种方法的条件是工具性变量Z除非通过X，否则不会作用于Y， Z这个信息就是我们强加的。统计就是处理信息，当我们没有信息时，我们有两种办法，一种是去收集信息，另一种是去制造信息。什么是假设，假设就是制造信息。有了这个Z后，就意味着Z与Y相关，但不直接作用于Y，如果你找的变量与Y不相关的话，这个变量就是无效的，另外Z与X也要是相关的，但这种相关关系不能太强，关系太强了的话，这个变量就也不是工具性的变量。所以这个变量Z既要与Y相关，又不能直接作用于Y，与X也要相关，但相关关系又不能太强。只有这样Z在这里起到的作用才是工具的作用。因此这里最关键的问题就在于找到一个好的Z非常困难。我给你们举一个例子，比如说你哥哥上大学的愿望对你上大学的愿望会有影响，而你哥哥上大学的愿望又是受到他的同学的上大学的愿望的影响，因此你上大学的愿望是受到你哥哥的同学上大学的愿望影响的，只是这种影响是通过你哥哥的上大学的愿望来实现的，在这里，你哥哥上大学的愿望就是起到了工具性变量的作用。大家明白了吧，好，我今天就讲到这里。

马戎主任：今天的讲座就到这里，星期五谢宇教授会给我们带来他的最后一个讲座，主题是美国社会和美国社会学，地点在理教207，欢迎大家参加。

研究方法的文章系列2 研究方法的文章系列研究方法的文章系列1 研究方法的文章系列3 研究方法的文章系列4 研究方法的文章系列5 研究方法的文章系列6 研究方法的文章系列7 研究方法的文章系列8 研究方法的文章系列9 研究方法的文章系列10 关于庄家的系列文章一组研究股神巴菲特的文章一组研究股神巴菲特的文章！ [大学生必读]课本上学不到的知识系列文章2 经济学和金融学的研究方法和研究前沿2 掌握阅读文章的正确方法2 研究问题的方法论文的研究方法课本上学不到的知识系列文章课本上学不到的知识系列文章 [原创]青少年网瘾的系列文章青少年网瘾的系列文章 “青少年网瘾的系列文章”