为什么相关系数和回归系数符号相反?

全文字数:1121字

阅读时间:4 分钟

在实证分析的过程中,我们经常会遇到相关系数和回归系数符号相反的问题。这能够说明我们的模型设定有误吗?为什么会出现这种情况?

举个简单的例子来理解这一问题:高颜值的人恋爱的几率更大,因为不考虑其他因素的情况下,颜值对恋爱成功率具有正向影响,这是基于颜值一个因素来考虑的,可以理解为相关性分析,即颜值与是否恋爱(系数为+)。但是从期来看,一段稳定的恋爱关系受到多个因素的影响,包括性格、职业、家庭等等,在以上多因素的影响下,颜值对于恋爱关系的作用很有可能是减弱的,甚至变为负向影响,这是基于颜值、性格等多个因素来考虑的,可以理解为多元回归(系数可能不显著,甚至为-)。

那么模型到底“发生了什么”使得相关系数和回归系数符号相反呢?

相关系数VS回归系数

相关系数(Correlation coefficient)是研究两个变量之间相互关系及相关方向的量,即研究一个变量发生变化时回归系数,另一个变量的变化方向以及变化量,相关系数一般用r(X,Y)表示。

回归系数(regression coefficient)表示自变量X对因变量Y影响大小的参数。例如回归方程式Y=β0+β1·X1+u中,斜率β1称为回归系数,表示控制其他因素不变的情况下,X1变动1个单位,Y将变动β1个单位。

相关系数和回归系数计算方法的最大区别在于是否控制其他变量,相关系数仅研究两两变量之间的关系,而回归系数计算是在控制其他因素不变的条件下,测量自变量x对因变量y的影响大小。

实例解释

我们以stata示例数据集educwages为例进行路径解析:

pwcorr_a wages education meducation feducation union

//相关性分析,结果显示个人以及父母受教育年限、参加工会的相关系数均为正,与工资水平正相关。

reg wages education meducation feducation union

//回归分析,结果显示个人受教育年限、参加工会回归系数为正,与相关系数符号一致,但是父母受教育年限回归系数方向变为负,与相关系数相反。

vif

//多重共线性检验,结果显示vif=2.53

接下来尝试做自变量meducation对因变量wages影响的路径分析,来看“正负号的改变”是如何发生的。

根据回归结果,我们可以写出模型方程:

回归系数——控制其他变量不变:

meduc增加1个单位,wages减少0.34个单位。

相关系数——不对其他变量进行控制:

medu增加1个单位,wages约增加0.485个单位。

所以相关性分析实际上是一个多元关系中各种路径的叠加的结果,也就是说某个自变量X1对因变量Y的影响有两条路径:

路径一:直接影响回归系数,X1→Y

路径二:间接影响,X1→(X2、X3……)→Y

因此,遇到相关系数和回归系数符号相反的情况,我们可以采取以下三个解决方法:

1、检查模型是否存在多重共线性;

2、检查数据是否存在异常值,可以进行缩尾或者截尾处理;

3、缩小研究范围,进行分组或者分行业研究;

4、忽略相关系数符号,直接分析相关系数大小。

更多干货

关于我们

本公众号定位于Stata语言的学习分享,通过研究方法与论文解析相结合的方式,提高stata学习者的综合能力,同时附带专业、高效的数据分析技术支持服务,为您的科研分析保驾护航!

1、发送“Stata”即可立即获取Stata学习书籍;

2、发送“Stata图卡”即可获取Stata学习速记图卡;

3、发送“stata16”,即可免费获取Mac、Windows系统stata16.0版本的安装包。

———END———
限 时 特 惠: 本每日持续更新海量各大内部创业教程,一年会员只需98元,全资源免费下载 
优惠码(不再需要): xnbaoku

声明:本站内容转载于网络,版权归原作者所有,仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任,若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!

大鱼项目网 » 为什么相关系数和回归系数符号相反?