进阶方法

逐步回归分析

逐步回归分析

  • ##### 分析方法视频解读:
  • 逐步回归分析研究X(自变量,通常为量数据)对Y(因变量,定量数据)的影响关系情况,X可以为多个,但并非所有X均会对Y产生影响;当X个数很多时,可以让系统自动识别出有影响的X;这一自动识别分析方法则称为逐步回归分析;如果全部X均没有显著性,此时系统默认返回

回归分析结果。

  • - ###### 分析步骤共为四步,分别是:
    • 第一步:首先对模型情况进行分析
    • 首先分析最终余下的X情况;以及被模型自动排除在外的X; 接着对模型拟合情况(比如R

2为0.3,则说明所有余下X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性).

  • 第二步:分析X的显著性
  • 模型余下的X一定具有显著性;具体分析X的影响关系情况即可.
  • 第三步:判断X对Y的影响关系方向
  • 回归系数B值大于0说明正向影响,反之负向影响.
  • 第四步:其它
  • 比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)..
分析项 逐步回归分析说明
网购满意度,重复购买意愿 网购满意度20项;其中具体那几项会影响到样本重复购买意愿?20项过多,让软件自动删除掉没有影响的项,余下有影响的项
  • #### 分析结果表格示例如下:
非标准化系数 标准化系数 t p VIF R 2 调整R 2 F
B 标准误 Beta
常数 0.774 0.384 - 2.014 0.047* - 0.351 0.326 14.188**
分析项1 0.198 0.099 0.202 1.998 0.048* 1.320
分析项2 0.437 0.124 0.374 3.519 0.001** 1.320
分析项3 0.004 0.124 0.004 0.034 0.973 1.230
p* <0.05 ** p <0.01

  • ###### 特别提示
  • 逐步回归分析仅在回归分析的基础上,加入了一项功能,即自动化移除掉不显著的X,通常逐步回归分析用于探索研究中。
  • 逐步回归分析之后,可对回归模型进行检验。可包括以下四项:
  • 多重共线性:可查看VIF值,如果全部小于10(严格是5),则说明模型没有多重共线性问题,模型构建良好;反之若VIF大于10说明模型构建较差。
  • 自相关性:如果D-W值在2附近(1.7~2.3之间),则说明没有自相关性,模型构建良好,反之若D-W值明显偏离2,则说明具有自相关性,模型构建较差。自相关问题产生时建议对因变量Y数据进行查看。
  • 残差正态性:在分析时可保存残差项,然后使用“直方图”直观检测残差正态性情况,如果残差直观上满足正态性,说明模型构建较好,反之说明模型构建较差。如果残差正态性非常糟糕,建议重新构建模型,比如对Y取对数后再次构建模型等。
  • 异方差性:可将保存的残差项,分别与模型的自变量X或者因变量Y,作散点图,查看散点是否有明显的规律性,比如自变量X值越大,残差项越大/越小,这时此说明有规律性,模型具有异方差性,模型构建较差。如果有明显的异方差性,建议重新构建模型,比如对Y取对数后再次构建模型等。
  • 另外,如果回归分析出现各类异常,请查看数据中是否有异常值(可通过比如描述分析、箱线图、散点图等查看),找出异常值,并且处理掉异常值(使用“异常值”功能)。也或者使用稳健回归(Robust回归进行分析,Robust回归是专门处理异常值情况下的回归模型)。

疑难解惑

  • ##### 提示“模型没有识别出显著自变量!”?
  • 逐步回归可自动识别出对因变量有影响的自变量X,当然有可能所有的自变量均不会对因变量产生影响,则会出现此提示。可使用‘线性回归’进行对比检查。
  • ##### F 值括号里面的两个值分别是什么?
  • 如果是F 值想计算得到p

值,需要提供两个自由度值***df 1df 2。一般情况下,df 1等于自变量数量;df* 2**等于样本量

  • (自变量数量+1)。此两个值仅为中间过程值,规范格式上需要写成这样而已,无其它实际意义。