残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。
它应符合模型的假设条件,且具有误差的一些性质。利用残差所提供的信息,来考察模型假设的合理性及数据的可靠性称为残差分析。
基本介绍
- 中文名:残差
- 外文名:residual
- 学科:统计学
- 用途:考察模型合理性及数据的可靠性
普通残差
设线性回归模型为
其中Y是由回响变数构成的n维向量,X是
阶设计矩阵,β是p+1维向量,ε是n维随机变数。


回归係数的估计值
,拟合值
为
,其中
,称H为帽子矩阵。残差为
。





这解释了帽子矩阵与残差的关係,因为残差可以通过帽子矩阵与真实值得出。
内学生化残差
由差向量ε的的性质,得到
。因此,对每个
,有
,其中
是矩阵H对角线上的元素。




用
作为
的估计值,称
为标準化残差,或者称为内学生化残差。这因为
的估计中用了包括第i个样本在内的全部数据。由
可知,标準化残差
近似服从标準常态分配。






外学生化残差
若记删除第i个样本数据后,由余下的n-1个样本数据求得的回归係数为
,做
的估计值,有
,其中
为设计矩阵X的第j行。称
为学生化残差,或者称为外学生化残差。





特徵
在回归分析中,测定值与按回归方程预测的值之差,以δ表示。残差δ遵从常态分配N(0,σ2)。(δ-残差的均值)/残差的标準差,称为标準化残差,以δ*表示。δ*遵从标準常态分配N(0,1)。实验点的标準化残差落在(-2,2)区间以外的机率≤0.05。若某一实验点的标準化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。
显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
分析
为了更深入地研究某一自变数与因变数的关係,人们还引进了偏残差。此外, 还有学生化残差、预测残差等。以某种残差为纵坐标,其它变数为横坐标作散点图,即残差图 ,它是残差分析的重要方法之一。通常横坐标的选择有三种:
(1) 因变数的拟合值;
(2)自变数;
(3)当因变数的观测值为一时间序列时,横坐标可取观测时间或观测序号。
残差图的分布趋势可以帮助判明所拟合的线性模型是否满足有关假设。如残差是否近似常态分配、是否方差齐次,变数间是否有其它非线性关係及是否还有重要自变数未进入模型等。.当判明有某种假设条件欠缺时, 进一步的问题就是加以校正或补救。需分析具体情况,探索合适的校正方案,如非线性处理,引入新自变数,或考察误差是否有自相关性。