第十二章 多元回归分析
在许多实际问题中,影响因变量的因素有一个时,我们用一元回归分析解决问题,但是影响因变量的因素往往有多个,此时问题就上升到了一个因变量同多个自变量的多元回归问题。当因变量与自变量之间为线性关系时,我们称之为多元线性回归。
多元性性回归分析的原理同一元线性回归基本相同,但计算上要复杂得多。 主要知识点:
建立的回归模型中回归系数和误差项分别代表的含义:
回归系数?(i?0,1,2?k)表示当其他 k?1个自变量不变时,第i个自变量
i一个单位因变量y的平均变动量;
误差项?表示不能由各个自变量与y之间的线性关系所解释的变异性。 利用软件用最小二乘法对参数进行估计的方法及步骤:
在Excel中使用“工具”?“数据分析” ?“回归” ?输入数据区域?“确定”,即可得到各参数的估计值,此时便可以写出回归方程。 拟合优度的检验方法:
方法一:多重判定系数
SSRSSE22 R??1?0?R?1
SSTSST
R表示在因变量y的总变差中被估计的回归方程所解释的比例;
22 故R越大越好。 方法二:估计标准误差
S?ee?)?(y?yii2n?k?1
S表示根据所建立的回归方程,用自变量来预测因变量时,平均
预测误差的大小;
故Se越小越好,越小说明波动性越小。
用软件进行线性关系检验的方法:
在Excel中,在“工具”?“数据分析” ?“回归” ?方差分析一栏中有“SignificanceF”值(即P值),当p??时,拒绝原假设;当p??时,接受原假设。
回归系数的检验:
检验单个自变量对因变量的影响是否显著,检验步骤同线性关系的检验,检验过
程中可能会因为“多重共线性”问题导致某些自变量无法通过检验。
检验步骤:第1步:提出假设。对于任意参数?(i?1,2?k)有
i
H:?0i?0 ?0
H:?1i 第2步:计算检验的统计量t。
t?i??iS??~t(n?k?1)
i 第3步:做出统计决策。
给定显著性水平?,根据自由度=n-k-1查t分布表,得
t?2的值。若t?t?2,则拒绝原假设;若t?t?2,则不拒
绝原假设。
多重共线性:
产生原因:自变量之间的相关性; 检验方法:
方法一:检验模型中各对自变量之间是否显著相关,若显著相关则暗示
存在多重共线性;
方法二:当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著;
方法三:当回归系数的正负号与预期的相反时也预示着多重共线性的存
在;
问题的处理:
方法一:将一个或多个相关的自变量从模型中剔除,使保留的自变量尽
可能不相关;
方法二:如果要在模型中保留所有的自变量,那就应该:
i? ⅰ 避免根据t统计量对单个参数?进行检验。
ⅱ 对因变量y值得推断(估计或预测)限定在自变量样本值
的范围内。
利用回归方程进行预测:
利用给定的k个自变量,求出因变量y的平均值的预测区间和个别值的预测区间。
变量选择:
原理:对统计量进行显著性检验,将一个或一个以上的自变量引入模型,如果增加一个自变量会使得残差平方和(SSE)明显减少,则将该自变量留在模型中,否则剔除。
主要方法:1)向前选择2)向后剔除3)逐步回归
本章知识结构如下: 1、 建立回归模型 y
????x??x011202????kxxk??
回归方程 y????x??x1122k2????kk
2、 利用最小二乘法对参数进行估计
参数包括?,?,???
01
多 元 回 归 分 析
方法一:多重判定系数 方法二:估计标准误差 1) 提出假设 2) 计算统计量F?R
2Se
SSRK~F(k,n?k?1)
SSE(n?k?1) 3) 作出决策 F,F?,P,?
a) 向前选择 b) 向后剔除 c) 逐步回归
a) 计算各对自变量之间的相关系数,并对各相关系数进行显著性检验;
b) 当模型的线性关系进行F检验显著时,几乎所有回归系数?的t检验却不显著;
ic) 回归系数与预期的的相反;
本章例题
对于绝大多数的钢种而言,磷是有害的元素之一,要求含磷越低越好,经过试验技术人员发现,高磷钢的效率与高磷钢的出钢量及高磷钢中的FeO含量有一定关系, 所测数据如下表:
试验序号 1 2 3 4 5 6 7 8 9 10 11 12 13 出钢量(x1) 87.9 101.4 109.8 93.0 88.0 115.3 56.9 103.4 101.0 80.3 96.5 110.6 102.9 含量(x2) 13.2 13.5 20.0 14.2 16.4 14.2 14.9 13.0 14.9 12.9 14.6 15.3 18.2 效率(y) 82.0 84.0 80.0 88.6 81.5 83.5 73.0 88.0 91.4 81.0 78.0 86.5 83.4 设高磷钢的效率为y、高磷钢的出钢量为x1、高磷钢中的FeO含量为x2
用Excel进行回归,回答下面的问题: (1) 写出估计的回归方程。
(2) 在高磷钢的效率的总变差中,被估计的回归方程所解释的比例是多少? (3) 检验回归方程的线性关系是否显著(??0.05)。 (4) 检验各回归系数是否显著(??0.05)。
(5) 检验所建立的回归方程是否存在多重共线性。 解:用Excel进行回归分析输出如下所示: 回归统计 Multiple R 0.688844 R Square 0.474506 Adjusted R Square 0.369407 标准误差 3.846481 观测值 13 方差分析
df SS MS F Significance F 回归分析 2 133.5981 66.79907 4.514849 0.040072 残差 10 147.9542 14.79542 总计 12 281.5523
Lower Upper 下限 上限
Coefficients 标准误差 P-value
95% 95% 95.0% 95.0%
Intercept 75.14378 9.487736 1.29E-05 54.00379 96.28377 54.00379 96.28377 出钢量 0.215485 0.074578 0.016124 0.049314 0.381655 0.049314 0.381655 FeO含量 -0.84321 0.548418 0.155181 -2.06516 0.378745 -2.06516 0.378745
(1) 由此可得到高磷钢的效率与高磷钢的出钢量及高磷钢中的FeO含量的回