进阶方法

逐步回归分析

##### 分析方法视频解读：
逐步回归分析研究X(自变量,通常为量数据)对Y(因变量,定量数据)的影响关系情况,X可以为多个,但并非所有X均会对Y产生影响;当X个数很多时,可以让系统自动识别出有影响的X;这一自动识别分析方法则称为逐步回归分析;如果全部X均没有显著性,此时系统默认返回

回归分析结果。

- ###### 分析步骤共为四步,分别是:
- 第一步:首先对模型情况进行分析
- 首先分析最终余下的X情况;以及被模型自动排除在外的X; 接着对模型拟合情况(比如R

2为0.3,则说明所有余下X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性).

第二步:分析X的显著性
模型余下的X一定具有显著性;具体分析X的影响关系情况即可.
第三步:判断X对Y的影响关系方向
回归系数B值大于0说明正向影响,反之负向影响.
第四步:其它
比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)..

分析项	逐步回归分析说明
网购满意度,重复购买意愿	网购满意度20项;其中具体那几项会影响到样本重复购买意愿?20项过多,让软件自动删除掉没有影响的项,余下有影响的项

#### 分析结果表格示例如下:

	非标准化系数		标准化系数	t	p	VIF	R 2	调整R 2	F
B	标准误	Beta
常数	0.774	0.384	-	2.014	0.047*	-	0.351	0.326	14.188**
分析项1	0.198	0.099	0.202	1.998	0.048*	1.320
分析项2	0.437	0.124	0.374	3.519	0.001**	1.320
分析项3	0.004	0.124	0.004	0.034	0.973	1.230
p* <0.05 ** p <0.01

###### 特别提示
逐步回归分析仅在回归分析的基础上，加入了一项功能，即自动化移除掉不显著的X，通常逐步回归分析用于探索研究中。
逐步回归分析之后，可对回归模型进行检验。可包括以下四项：
多重共线性：可查看VIF值，如果全部小于10（严格是5），则说明模型没有多重共线性问题，模型构建良好；反之若VIF大于10说明模型构建较差。
自相关性：如果D-W值在2附近（1.7~2.3之间），则说明没有自相关性，模型构建良好，反之若D-W值明显偏离2，则说明具有自相关性，模型构建较差。自相关问题产生时建议对因变量Y数据进行查看。
残差正态性：在分析时可保存残差项，然后使用“直方图”直观检测残差正态性情况，如果残差直观上满足正态性，说明模型构建较好，反之说明模型构建较差。如果残差正态性非常糟糕，建议重新构建模型，比如对Y取对数后再次构建模型等。
异方差性：可将保存的残差项，分别与模型的自变量X或者因变量Y，作散点图，查看散点是否有明显的规律性，比如自变量X值越大，残差项越大/越小，这时此说明有规律性，模型具有异方差性，模型构建较差。如果有明显的异方差性，建议重新构建模型，比如对Y取对数后再次构建模型等。
另外，如果回归分析出现各类异常，请查看数据中是否有异常值（可通过比如描述分析、箱线图、散点图等查看），找出异常值，并且处理掉异常值（使用“异常值”功能）。也或者使用稳健回归（Robust回归进行分析，Robust回归是专门处理异常值情况下的回归模型）。

疑难解惑

##### 提示“模型没有识别出显著自变量!”？
逐步回归可自动识别出对因变量有影响的自变量X，当然有可能所有的自变量均不会对因变量产生影响，则会出现此提示。可使用‘线性回归’进行对比检查。
##### F 值括号里面的两个值分别是什么?
如果是F 值想计算得到p

值，需要提供两个自由度值***df 1和df 2。一般情况下，df 1等于自变量数量；df* 2**等于样本量

（自变量数量+1）。此两个值仅为中间过程值，规范格式上需要写成这样而已，无其它实际意义。