为什么相关系数和回归系数符号相反?
全文字数:1121字
阅读时间:4 分钟
在实证分析的过程中,我们经常会遇到相关系数和回归系数符号相反的问题。这能够说明我们的模型设定有误吗?为什么会出现这种情况?
举个简单的例子来理解这一问题:高颜值的人恋爱的几率更大,因为不考虑其他因素的情况下,颜值对恋爱成功率具有正向影响,这是基于颜值一个因素来考虑的,可以理解为相关性分析,即颜值与是否恋爱(系数为+)。但是从期来看,一段稳定的恋爱关系受到多个因素的影响,包括性格、职业、家庭等等,在以上多因素的影响下,颜值对于恋爱关系的作用很有可能是减弱的,甚至变为负向影响,这是基于颜值、性格等多个因素来考虑的,可以理解为多元回归(系数可能不显著,甚至为-)。
那么模型到底“发生了什么”使得相关系数和回归系数符号相反呢?
相关系数VS回归系数
相关系数(Correlation coefficient)是研究两个变量之间相互关系及相关方向的量,即研究一个变量发生变化时回归系数,另一个变量的变化方向以及变化量,相关系数一般用r(X,Y)表示。
回归系数(regression coefficient)表示自变量X对因变量Y影响大小的参数。例如回归方程式Y=β0+β1·X1+u中,斜率β1称为回归系数,表示控制其他因素不变的情况下,X1变动1个单位,Y将变动β1个单位。
相关系数和回归系数计算方法的最大区别在于是否控制其他变量,相关系数仅研究两两变量之间的关系,而回归系数计算是在控制其他因素不变的条件下,测量自变量x对因变量y的影响大小。
实例解释
我们以stata示例数据集educwages为例进行路径解析:
pwcorr_a wages education meducation feducation union
//相关性分析,结果显示个人以及父母受教育年限、参加工会的相关系数均为正,与工资水平正相关。
reg wages education meducation feducation union
//回归分析,结果显示个人受教育年限、参加工会回归系数为正,与相关系数符号一致,但是父母受教育年限回归系数方向变为负,与相关系数相反。
vif
//多重共线性检验,结果显示vif=2.53
接下来尝试做自变量meducation对因变量wages影响的路径分析,来看“正负号的改变”是如何发生的。
根据回归结果,我们可以写出模型方程:
回归系数——控制其他变量不变:
meduc增加1个单位,wages减少0.34个单位。
相关系数——不对其他变量进行控制:
medu增加1个单位,wages约增加0.485个单位。
所以相关性分析实际上是一个多元关系中各种路径的叠加的结果,也就是说某个自变量X1对因变量Y的影响有两条路径:
路径一:直接影响回归系数,X1→Y
路径二:间接影响,X1→(X2、X3……)→Y
因此,遇到相关系数和回归系数符号相反的情况,我们可以采取以下三个解决方法:
1、检查模型是否存在多重共线性;
2、检查数据是否存在异常值,可以进行缩尾或者截尾处理;
3、缩小研究范围,进行分组或者分行业研究;
4、忽略相关系数符号,直接分析相关系数大小。
更多干货
关于我们
本公众号定位于Stata语言的学习分享,通过研究方法与论文解析相结合的方式,提高stata学习者的综合能力,同时附带专业、高效的数据分析技术支持服务,为您的科研分析保驾护航!
1、发送“Stata”即可立即获取Stata学习书籍;
2、发送“Stata图卡”即可获取Stata学习速记图卡;
3、发送“stata16”,即可免费获取Mac、Windows系统stata16.0版本的安装包。
———END———
限 时 特 惠: 本每日持续更新海量各大内部创业教程,一年会员只需98元,全资源免费下载
优惠码(不再需要): xnbaoku
大鱼项目网 » 为什么相关系数和回归系数符号相反?