统计相关性

新用户注册 | 用户登陆 | 刷新
论坛嘉宾: 萍踪浪迹 gauge 季候风

gauge


发表文章数: 596
内力值: 375/375
贡献度: 8310
人气: 1396

论坛嘉宾学术成员

统计相关性 [文章类型: 原创]

一个人受教育的程度与其收入之间肯定是有关的。一般而言,受到的教育程度越高,其个人收入也会相应的更高一些。很容易举出一些例子来说明某些人学历较低,但是其收入反而超过某些学历高的人。所以受教育程度越高,收入越高这个结论不是在单个的人这个水平上来说的。当然,我们很容易想到,这个命题是在统计学的意义上成立的。亦即,从总体上来说,受教育程度越高,则收入越高。比如,教育程度为大学程度的人的平均收入比只受到小学教育的人要高。通常对这个问题的考虑到此为止。我们会心安理得的认为,接受更多的教育有利于提高一个人的收入。但是这样下结论有很大的漏洞。粗略的说来,一个人接受教育的程度,以及一个人的收入,对于这两个变量,前面我们想象中的统计数据仅仅表明了二者是正相关的。但是并没有表明二者是具有因果关系。而我们给出的结论却是接受更多的教育有利于提高个人收入。我们通常从直观上接受的这个结论,断言二者具有一定的因果关系,当然不是说个人收入完全取决于其所受到的教育程度这样的完全决定性的因果关系。

统计相关的两个变量,其相关性不一定来自因果关系。比如学生的考试成绩。现在中国很多大学的很多课程都是150人以上的大班。教师不大可能认识所有这些学生。将期末考试的试卷分作两类,学生填写教师姓名为错误的当作一类,填写正确的为另一类。当然第一类的学生占少数,但是仍然不少。现在,我们统计这两类学生的成绩。很容易看出,第一类学生的成绩平均来说远远低于第二类学生,第一类学生的不及格的比例也远远高于第二类学生。那么如果有人认为这是由于教师主观上认为填错名字的学生态度不好从而给他们以较低的分数,比如其平时成绩得分较低。因为这是一个可能的原因。再比如说,书写潦草的学生得分一般也较低,那么是否可以认为评阅试卷者会因为字迹潦草而给出较低的分数呢?实际上,我们容易看出,第一类学生的成绩较差,原因是这些学生本来学习就不够努力导致的。也就是说,这些学生对学习不够重视,使得他们甚至不清楚任课教师的姓名。也就是说,导致这些学生写错教师姓名以及这些学生考分较低又一个共同的原因,但二者之间并没有因果关系。

统计相关性比因果相关性要弱,而且往往并不能由统计相关性上升到因果相关性,即使具有很高的相关系数也不一定可以做到这一点。比如中国围棋职业棋手等级分的分布规律和中国象棋职业棋手的等级分的分布规律之间具有很高的相关系数,达到$0.97$,但是两者之间没有因果关系。一个可能的原因是职业围棋和职业象棋具有相似性。

在教育和收入的关系中,我们从直观上觉得教育对收入有正面的影响。但是,要说明其间具有因果关系却不是轻而易举就可以做到的。

显然,收入较高的人,其个人能力一般而言也要高一些。另一方面,受教育程度高的人,其能力一般也要高一些。至少我们不会否定平均而言,大学毕业生的个人能力要高于只跟得上初中教育的人。因而完全有可能一个人的学历较高和收入较高之间没有因果关系,其间的统计相关性可能是由于二者具有一个共同的原因,亦即较高的个人能力。教育程度高的人能力也高,我们很难分辨究竟更高的收入是由教育还是不可观测的能力引起的。换言之,只有在具有相同能力的人之间进行比较才是有意义的。也就是说,我们需要统计并分析具有相同能力的人的收入和受教育程度之间的关系。证明变量间的因果关系是实证经济学中一个非常重要而又难以解决的课题。二者间的相关性很容易就可以得到,然而困难的是如何证明其中一个引起了另外一个的变化。

什么样的人具有相同的能力呢?统计经济学家有一个绝妙的主意。双胞胎之间的个人能力具有最小的差别。下面我们抄录一些相关的材料。这些分析给我们的教训是下结论要慎重。我们想当然的很多结论未必成立,必须通过小心的检验来确认这些所谓的规律。

发表时间: 2007-02-10, 11:10:49 个人资料

gauge


发表文章数: 596
内力值: 375/375
贡献度: 8310
人气: 1396

论坛嘉宾学术成员

Re: 统计相关性 [文章类型: 转载]

本节以及下一节摘录自《双胞胎数据在经济学中的应用》
作者,李宏彬 和 张俊森 香港中文大学经济系


直觉上说,即便个体在其他可观察的方面完全一致,比较不同教育水平的个体的收入还是不能够确定教育回报。这是因为不同教育水平的个体可能在某些不可观察的方面存在差异,而这些差异恰恰影响到了他们的收入。受过良好教育的人很可能更加能干,更加有积极性,或者拥有一个良好的家庭背景。如果这些优势不能够完全被控制,那么对教育回报的普通最小二乘估计中就会参杂了这些变量的影响。因此,要想分清对收入与教育的关系中,有多少来自于教育对收入的因果关系,有多少来自于那些同时影响了教育和收入的不可观察的变量的影响,是非常困难的。

早期的研究利用兄弟姐妹的数据来控制不可观测的能力。其思想就是比较教育程度不同的兄弟(或姐妹)的收入。如果我们能够假设兄弟们有着相似的能力,那么我们就会更有信心把教育和收入之间的相关性视为因果关系。

但是经济学家们并不满足于利用兄弟姐妹的数据,因为兄弟姐妹间的能力仍然可能相差很远。他们开始致力于获得双胞胎数据,因为双胞胎之间的能力更为相似。Taubman可能是第一位使用双胞胎数据的学者。根据1973年(美国)国家科学院-国家研究委员会(NAS-NRC)双胞胎登记处的白人男性退役军人的样本,他在上世纪七十年代发表的论文中对一套包括1022对同卵双胞胎和914对异卵双胞胎的数据进行了研究。Taubman(1976a和 1976b)发现不控制基因和家庭环境因素会导致很大的系数估值的偏差,该偏差高达在不控制情况下得出系数的三分之二。

由于缺乏数据,此后很长时间也只有Taubman和他的合作者们使用了双胞胎数据, 直到
《美国经济评论》前编辑、普林斯顿的教授Ashenfelter和他的同事们(例如,Ashenfelter和Krueger, 1994; Ashenfelter和Rouse, 1998)发现了一个非常有趣而实用的收集双胞胎数据的方法。他们在1991年8月7 日这天,来到世界各地的双胞胎聚集的美国俄亥俄州的特温斯堡(Twinsburg,意即双胞胎城)进行调查 。Ashenfelter和他的合作者们在节日当天,在通道处放置广告邀请所有成年双胞胎进行采访,并提供``双胞胎节学术基金"给完成采访的每对双胞胎作为奖励。
问卷格式仿照了普查局的现住人口调查问卷(CPS),并加入与双胞胎研究特别相关的问题。

家庭子女数和素质的相关性数十年来一直吸引着社会学者的浓厚兴趣,尤其是当Gary Becker和他的合作者们(Becker, 1960; Becker和Lewis, 1973; Becker和Tomes, 1976) 建立的数量-质量模型的理论出现以后。此处数量是指子女个数,质量是指子女素质。根据这个模型,与数量相关的递增的质量边际成本导致了在数量和质量之间存在权衡取舍。大量实证研究尝试了检测数量-质量之间的取舍关系,并基本上证实了可以观察到家庭人数和子女质量之间的负相关性的预计。亦即子女个数越多,平均素质越差。然而,大多数研究仅仅简单地将家庭人数当作一个外生变量, 因此并不能够证明因果关系。子女的数量和质量均为内生变量,这是因为生育行为和子女素质均由父母选择(Browning,1992; Haveman和Wolfe, 1995),也就是说,它们都受到了不可观测到的父母的偏好和家庭状况的影响。解决内生性的一个重要方法是利用双胞胎自然出生引起的家庭人数的外生变化来分离家庭人数对子女素质的作用。 Rosenzweig和Wolpin (1980a)有一篇在用双胞胎作为识别工具方面的开创性研究, 利用印度的一个小样本(大约1,600个孩子中的25对双胞胎),他们发现(由双胞胎出生引起的)家庭人数对子女的受教育水平有着负向的影响。

发表时间: 2007-02-10, 11:12:30 个人资料

gauge


发表文章数: 596
内力值: 375/375
贡献度: 8310
人气: 1396

论坛嘉宾学术成员

Re: 统计相关性 [文章类型: 转载]

虽然从Mincer(1974)的研究以来,估计教育回报率成为一个重要的计量问题,直到最近经济学家才开始运用中国的数据来估计教育回报率。一些利用八十年代和九十年代的中国城市数据的研究发现非常低的回报率:每增长一年的教育仅能对收入水平提高2%到4% (Byron 和 Manaloto, 1990;Meng 和 Kidd, 1997)。这个发现引起了许多劳动经济学家的关注,包括James Heckman。他们认为,早期的中国的教育回报率之所以低是因为在八九十年代中国的绝大多数的城市经济都处于计划经济体制下。然而,他们相信随着中国由计划经济向市场经济的转变教育回报率将会逐步提高,因为在市场经济条件下,对应于教育水平的收入层次反映了个人的教育投资(Mincer,1974;Becker,1993)。 近期的数据确实显示中国的教育回报率在上升。Heckman和 Li (2004) 发现2000年教育回报率已经上升到了7%。利用一个十四年的横截面数据 (1988-2001),至今为止同类中的最好的大规模数据,张俊森,赵耀辉,Park, Albert和宋晓青(2005)发现了中国城市的教育回报率有一个急速的增长,从1988年的仅4%增长到了2001年的10%。尽管许多研究都显示中国的教育回报率的上升,他们都主要运用普通最小二乘法,没有任何研究能够建立因果关系。

李宏彬,廖柏伟,马宁和张俊森(2005a)是第一个利用中国双胞胎数据分析教育和收入之间的因果关系的。他们的实证研究表明从普通最小二乘法中得到的教育对于收入的影响其实主要是由于无法观察到的能力或者家庭背景的影响造成的。他们运用普通最小二乘法得到8.4%的教育回报率,和大多数其他运用中国或者亚洲的数据的研究 (以Psacharopoulos, 1992; Heckman 和李雪松, 2004; 张俊森等,2005) 的估计十分接近。然而,当利用双胞胎之间的固定效应模型以后,教育回报率就降低到了2.7%,这个结果显示运用最小二乘法得到的回报率的估计主要是遗漏能力变量或者家庭背景的体现,而不是真正的教育回报。换句话说,相对于提供可以提高收入的知识或者训练,中国的教育体系对于选拔优秀能力的人于体系中进步发展更为重要。他们还考虑了教育变量测量误差可能导致的偏误。通过运用由Ashenfelter 和 Krueger (1994) 引入的工具变量的方法纠正了测量误差之后,教育回报率的估计值为3.8%。如同表格1所示,从中国双胞胎数据中得到的低的教育回报率和高度的选择性(或者能力偏差)有别于其它国家(以Ashenfelter 和 Rouse, 1998; Behrman 和 Rosezweig, 1999; Bonjour等, 2003为例)。李宏彬等 (2005a)的第二个目的就是解释为什么中国的情况如此特殊。尽管中国计划经济体制的残留影响可以作为部分的解释,但是他们在文章中提出了另一种解释。他们认为低教育回报率和高度的选择性可能是中国特殊的教育体系的结果。由于庞大的待教育人口和有限的大学招生人数,进入大学深造的竞争相当激烈。中国对于这个问题的解决方法就是考试。只有非常聪明能干的才可以在高考中得到高分从而接受高等教育。因此中学教育,尤其是高中和与此相关的入学考试,成为了一个非常重要的选拔机制。这可以解释为什么在普通最小二乘法中的能力偏差如此之大。而且,为了准备高考,中国的中学教育,尤其是高中教育,完全是应试型教育,因此全面的知识或者工作技能方便的培养非常匮乏。因此,这样的应试型的高中教育将会有一个低的回报,也从而降低了整体的教育回报率。为检验中国的教育体系是否应当为低的教育回报率和高度的教育选择性负责,李宏彬等 (2005a)采用了普通最小二乘法、双胞胎组内的固定效应和工具变量的方法来估计不同的教育文凭的回报。应试型的高中教育应该有最低的教育回报率,而技校中专和大专应该有较高的回报率因为它们较弱的应试程度。有意思的是,这些假设都被证实了。他们发现高中教育的回报率几乎为零,但是对高等教育的回报率非常的高。在控制了遗漏变量和测量误差以后,他们发现一个大学毕业生的收入会比初中或高中毕业生高出40%。这说明除非可以进入大学否则高中教育没有回报。而且,尽管高中教育的回报率几乎为零,职业技校教育的回报率为22%之高,或者每年7.3%。

通过双胞胎数据来控制遗漏的能力变量的想法一出现就引起了许多劳动经济学家的广泛兴趣,但是当许多双胞胎研究发现普通最小二乘法的结果和控制了遗漏能力变量的双胞胎组内的固定效应的结果差异不大之后,它的受欢迎度削弱了。这些研究之所以发现较低的遗漏能力偏差是由于他们都利用发达西方国家的双胞胎数据,而在那些国家中教育的选择性并不强。李宏彬等 (2005a)是第一个利用中国的双胞胎数据估计教育回报率的研究,也可能是第一个利用亚洲双胞胎数据的研究。亚洲国家的教育体系,特别是东亚国家和地区,例如日本,南韩,台湾,香港和中国内地,有相似的严格的高等教育入学考试。可以想象,这些国家和地区的高中教育都高度重视考试技巧,因此和西方国家相比较,教育在这些国家和地区的选择性更大。在这个意义上,运用双胞胎数据对这些国家更为重要。李宏彬等(2005a)也是第一个利用发展中国家的双胞胎数据的研究,在这些国家老百姓由于受资产约束和家庭背景影响更大,因而遗漏变量的偏差可能更大,因此来自发展中国家的双胞胎数据的内涵更深刻(Lam 和 Schoemi, 1993; Herrnstein 和 Murray, 1994)。

对于从计划经济体制转形到市场经济体制的中国而言,准确估计教育回报率非常重要。在改革的进程中,中国政府必须改革所有的部门,例如工业、银行、医疗体制和教育。在有限的资源情况下,政府需要确定支出的优先次序。李宏彬等 (2005a)发现真实的每年教育回报率大约为3.8%,可能远远低于物质资料的投资回报率。但是,教育回报率对于不同的教育程度存在差异。高中教育的回报率几乎为零,而职业技校和大学的学位的教育回报率很高。因此,把三年的高中教育削减为两年从而节约资源供给其他的教育水平有可能会增加经济的整体效用。

发表时间: 2007-02-10, 11:15:52 个人资料

大漠孤狼


发表文章数: 623
内力值: 361/361
贡献度: 6528
人气: 648

论坛嘉宾

Re: 统计相关性 [文章类型: 原创]

一对同卵双胞胎的能力是相似的,不同对双胞胎之间能力可以用高斯分布来模拟,而家庭背景,地域经济或教育水平也会对“教育与收入”这个数据产生影响。以gauge兄接触到的资料来看,是如何解决处理这些因素的?

发表时间: 2007-02-10, 21:08:48 个人资料

gauge


发表文章数: 596
内力值: 375/375
贡献度: 8310
人气: 1396

论坛嘉宾学术成员

Re: 统计相关性 [文章类型: 原创]

to大漠兄,你说的问题没有考虑过。你可以介绍一下。

发表时间: 2007-02-11, 02:36:00 个人资料

星空浩淼


发表文章数: 799
内力值: 423/423
贡献度: 8426
人气: 1826

客栈长老学术成员

Re: 统计相关性 [文章类型: 原创]

好文,最近guage兄接连出几个大手笔

One may view the world with the p-eye and one may view it with the q-eye but if one opens both eyes simultaneously then one gets crazy

发表时间: 2007-02-11, 23:52:06 个人资料
您尚未登陆 | 用户登陆