新的自变量时,剩余平方和会减少或不变,而剩余方差Var(e)则不一定,因为其分子、分母都将发生变化。多元线性回归中,常将R与R 结合应用,以说明回归效果的有效性。
F统计量也可用于多元线性回归方程R2统计量显著性的检验。由于:
2222
F =(∑(?i - Y) /k) / (∑(Yi - ?i )/( n-k-1)) = ( n-k-1) R/ (k (1-R))
R2是测定Y的总离差通过一组自变量进行回归后减少的比例。F检验是Y和一组自变量之间是否有回归关系的检验。两者都着眼于回归方程这个整体,借助的都是方差分析。
2
2三、自变量的选择
运用因果回归分析法预测,首要问题是自变量的选择。为预测对象选择适当的回归变量是预测成功的基础。在预测模型中包含与预测对象关系不大的因素,或说对预测对象影响不显著的因素,既增大计算工作量,又降低预测精度。若选择的自变量虽然对预测对象影响甚大,但彼此间高度线性相关,违背回归分析的基本假设,会导致一系列错误,则模型不能用于预测。对于自变量的选择,要依据两条准则:(1)选择的自变量应是那些与预测对象密切相关的因素;(2)是所选择的自变量之间不能有较强的线性关系。 1.因素分析
因素分析是一种定性分析。它是预测时选择自变量的第一步。它需要凭借对预测对象的熟悉、了解,分析找到影响预测对象的所有因素,再从中选择那些能够定量描述且可搜集到历史观察值的因素,作为初选的自变量。因素分析要尽可能将影响预测对象的因素考虑全面,以免遗漏某些确有影响的重要因素。
2.简单相关分析
因素分析中选择的因素,是否能够作为自变量进入预测模型,还要通过定量分析。一种简单可行的办法是进行相关分析,即分别计算预测对象与各影响因素的简单相关系数,选择那些与预测对象相关程度高的作为自变量。一般相关系数小于0.8的因素视为相关程度不高,而被舍弃不纳入预测模型。对某些拿不准是否应舍弃的因素,也可暂时保留,待模型检验后再做决定。
3.简单相关与多元共线性
通过简单相关分析所选择的自变量能否全部进入预测模型,取决于自变量之间是否有较强的线性关系。多元回归的基本假设之一是自变量间不存在明显的线性关系。用最小二乘法得到的参数估计值bj(j=1,2,…, k),表示在其他自变量保持不变时,由于x j变动所引起的Y的平均变动量。若自变量间有较密切的线性关系,变量x j稍有变化,与其高度相关的自变量会随之变化,回归系数bj将无法解释。自变量之间的线性约束,被称之为多元共线性。它是由于两个或更多个自变量(或自变量组合)相互之间高度相关而致。当自变量存在多重共线性时,在共线性的变量中只能保留一个,其余略掉,通常略去的是其中与因变量相关系数较小者。
简单相关系数为选择合适的自变量提供了依据,但简单相关分析对于自变量之间较为复杂的线性关系,可能不能提供足够的信息。因而,这个规则也许不可靠。在这种情况下,需要与模型的有关统计检验结合。在利用简单相关系数判断自变量之间是否存在多元共线性时,应注意与定性分析结合,也就是说,要分析相关系数数值接近于1的两个自变量实际上是否真有相关关系,以避免出现虚假相关。
4.逐个剔除法
回归自变量的选择所涉及的计算量都很大。随着高速电子计算机日益广泛的应用,人们提出了许多变量选择准则和实用的计算方法及程序,例如基于残差平方和的准则、预测平方和准则、AIC准则等。不同的标准导致了不同的选择方法,因而所选到的“最优”变量组也不必相同。尽管数学方法对变量的正确选择可能有一些帮助,但在处理具体问题时,变量的
正确选择在根本上还是要依赖于所研究问题本身的专业知识和实践经验。当应用某种准则和方法选出的“最优”变量组明显地与实际问题本身的专业理论不一致时,需要首先重新考虑统计结论,查找数据中是否含有异常点,计算是否错误等,不能把变量选择方法看成“教条”机械搬用。
逐个剔除法是一种简单有效的变量选择方法,在实际预测中常常应用。逐个剔除法首先将与预测对象有关的全部因素引入方程,建立模型,然后依据每个回归系数的t值大小,逐个剔除那些不显著的变量,直到模型中包含的变量都是影响预测对象的显著因素为止。当不显著的变量较多时,不能同时剔除,而要从 | t | 值最小的那个系数所对应的变量开始逐一
22
删除。若删除一个变量后,模型的R和R变化不大,而其他统计量有所改善,如其余回归系数的| t |值增大,d统计量更接近于2附近,以及回归标准差、残差平方和有所降低等,则认为该变量从模型中删除是适宜的;若删除一个变量后,R和R的变化很大,则变量的删除对模型不利,应使之留在模型中。
5.引入法
其顺序恰好与逐个剔除法相反,目的也是寻求剩余平方和最小的回归方程。引用顺序根据相关系数决定的变量重要程度确定。首先取与Y相关系数最大的自变量,建立回归方程,在剩下的再选-个与Y相关系数最大的自变量建立回归方程,依此下去。在新变量引入方程后的每一阶段,都要决定引入变量的剩余平方和,并进行t检验,当引入变量的t值不具备显著时,引入过程结束。
引入法比较经济,所需计算机处理时间比较少,同时可避免处理大量变量,这种方法的缺点是它不能研究新变量对而前面已引入回归方程的变量的影响。 6.逐步回归分析
这种方法与引入法的区别是,在每一阶段都进一步研究前面已引入方程的变量,从而克服了引入法的缺点。它是按各个自变量对因变量作用的大小,由大到小依次逐个引入回归方程。凡引入一个自变量,都要对回归方程中每一个自变量的作用进行显著性检验。当发现某一个无显著作用的自变量被引入时,立即剔除。剔除一个自变量后,还要对仍留在回归方程中的自变量逐个进行显著性检验。如果发现方程中还存在无显著作用的自变量就应继续进行剔除,直到没有自变量可以引人,也没有自变量可以从回归方程中剔除为止。
2
2
四、多元共线性
多元共线性即自变量之间的线性约束,是由两个或更多个自变量具有高度线性相关而致。回归分析的基本假设之一自变量之间独立无关,违违反这一假定,即发生多元共线性,则相应的统计方法失效。若采用这些统计方法,会导致一些错误的判定,使预测失误。 1.多元共线性的基本性质
自变量之间全部或部分线性相关,即存在多元共线性,基本性质如下:
? 改变回归系数 根据最小二乘法,回归系数b = (XTX)-1XTY。当自变量之间完全相关时,(XTX)-1不存在,回归系数也不存在;当自变量之间是高度相关时,(XTX)-1的行列式接近于零。这时b表现出不确定性。多重共线性的存在,改变了回归系数b,并因此使其标准差增大,以致使该参数的t检验通不过。
? 不降低模型的拟合能力
回归方程的F检验和拟合优度R2,在某种意义上都反映变量Y与自变量之间的线性回归关系,或者说反映回归模型对因变量实际观察值的拟合能力。多元共线性的存在不妨碍这种拟合能力,也不会导致模型的F检验通不过。可以从相应的表达式中加以说明。 2.多元共线性的影响
? 对回归系数的影响
当多元共线性存在时,任何一个自变量的回归系数,依赖于包括在模型中的其他自变量。所以,回归系数并不反映方程中任何一具体自变量对因变量的影响,而只是方程中给定与其相关的自变量后一个偏的影响。 ? 对回归平方和的影响
存在多元共线性时,一个自变量引起总离差的减少必须看作是与包括在同一方程中的其他自变量相关连。因此,没有一个唯一的平方和能属于某一自变量作为反映Y总离差的减少。
3.多元共线性的识别和消除
预测时,遇到下列情况往往表明有多元共线性的存在:
(1)回归模型的F检验通过,而有的回归系数的t检验未通过。 (2)模型中增加或删除一个自变量,回归系数的估计值有较大的变化。
(3)回归系数估计值的符号与实际经验判断的相反。
(4)简单相关系数矩阵中,两个自变量之间的相关系数值较大。通常,简单相关系数r>0.7,应考虑有多元共线性存在。
这些非正式的方法,虽然有很大的局限性,但直观、简便,故在预测中时常被应用。识别多元共线性时,要坚持定性与定量分析相结合的原则,分析影响预测对象的这些因素之间是否真的具有高度线性相关关系,特别是上述最后一种情况更要谨慎处理。
消除共线性最简单的办法是:删除共线性组中自变量与因变量的简单相关系数最小者。消除多元共线性是采用最小二乘估计所必须的,为避免这一麻烦,有不少新的估计方法可以使用,其中最重要的一类是有偏估计。岭估计、广义岭估计、主成分估计等都属于有偏估计,这些方法有待于在预测实践中应用。
五、滞后变量模型
实际的经济现象之间并不都是同步变化,常存在滞后效应。如回归余项序列自相关的原因之一就是滞后性。通常把具有滞后作用的变量称为滞后变量,包含滞后变量的模型称为滞后变量模型。
1.模型类型
滞后变量模型依解释变量的形式不同分为两大类:分布滞后模型和自回归模型。 ? 分布滞后模型
若因变量的影响因素仅为自变量及其各期滞后值,则模型为分布滞后模型。模型形式为: Yt = b + b0xt + b1xt-1 + … + bsxt-s +εt (单变量情形)
或 Yt = b0 + b10x1t + b20x2t + … + bk0xkt +
b11x1t-1 + b21x2t-1 + … + bk1xkt-1 + … +
b1sx1t-s + b2sx2t-s + … + bksxkt-s +εt
= b0 + ∑∑bjixjt-i +εt (j=1,2,…k,i=0,1,…s) (多变量情形)
式中,s为滞后期,若s取值有限,模型为有限分布滞后模型;若s取值无限,则模型为无限分布滞后模型。回归预测中常用有限分布滞后模型。 ? 自回归模型
若影响因变量的因素不仅包括自变量及其滞后值,还包括因变量自身的若干期滞后值,则模型称为自回归模型。模型形式为
Yt = b0 + ∑∑bjixjt-i + ∑arYt-r +εt (j=1,2,…k,i=0,1,…s,r=1,2,…η) 式中,s、η为滞后期,取值有限;ar为自回归系数。 2.有限分布滞后模型应用
采用有限分布滞后模型进行预测,关键是确定自变量,及选择自变量合适的滞后期数。一般采用定性与定量相结合的方法选择变量的滞后期。为保证运用最小二乘法估计参数的有效性,可以采用前面介绍的自变量选择方法。由于模型与多元线性回归模型类似,当直接运用最小二乘法估计参数后,应进行前面介绍的各种检验。
对于D.W检验通不过,表明回归余项存在序列相关,一个可能的原因就是自变量的滞后效应。一般情况下,变量间若没有周期性(当数据的时间单位是月、季时,应考虑其周期性)滞后关系时,选择滞后一、二期即可。
3.自回归模型应用
在回归分析中,模型的自变量是非随机的,因变量没有限制,但常常是随机变量。自回归模型中解释变量包含了因变量Y的滞后项,违背了自变量非随机的假定,可以证明,其它的检验仍适用,但D.W检验不适用。为此杜宾提出了一阶自相关的H统计量检验法,适用于大样本的一阶自回归模型残差序列的自相关检验。
H统计量为:
h =ρ√n/(1-n?Var(a1)) = (1-d/2)√n/(1-n?Var(a1))
式中,ρ为残差序列自相关系数,d为D.W检验中的统计量,n为观测数据的个数,a1是一阶自回归系数估计值,Var(a1)是其方差。
可以证明,在ρ=0的假设下,h~N(0,1)。 因此,H统计量检验法的判定标准为:根据显著性水平α,查正态分布表,得到临界值,若h 这一检验当n?Var(a1)>1时失效。 六、预测 1.点预测 参见文献[3]。 2.区间预测 ?0 + tα/2(n-k-1)·S·√1+ X0(XTX)-1X0 ,参见文献[3]。 七、编程实现 参见源程序LMN1.c。