`

线性回归的潜在问题

 
阅读更多
来自‘统计学习简介’

因变量-自变量关系的非线性
误差项的相关性
非恒定方差和正态分布误差
异常值/高杠杆点
共线性
总结了判断上述问题是否存在的方法以及相应的解决办法。这是统计学家面试时经常提出的问题,但该问题是否有实际意义取决于你创建模型的目的。在接下来的概念中,我们会更仔细地研究某些相关知识点,因为我觉得我们需要额外注意那些,但下方为你列出了各知识点的详尽介绍,我们先来仔细看看下文涉及的每一项。

线性
线性是假设因变量和自变量之间真的存在可用线性模型解释的关系。如果线性假设不为真,那你的预测结果就不会很准确,此外,与系数有关的线性关系也就没什么用了。

为了评估某段线性关系是否合理,一个很实用的方法是做预测值 (\hat{y})(
y
^
​ ) 的残差 (y - \hat{y})(y−
y
^
​ ) 图。如果图中出现多个曲线部分,那就意味着线性模型实际上可能并不拟合数据,自变量和因变量存在其它关系。创建非线性模型的办法有很多(甚至可以线性模型的形式来创建),其中几种办法会在本课后面的内容中提及。

在本页底部的图片里,这些称为 偏差 模型。理想来说,我们想要的是像图片左上角残差图那样的随机散点图。

相关误差
如果我们是随时间变化来收集的数据(比如预测未来股价或利率),或数据与空间有关(如预测洪涝或干旱地区),那就很容易出现相关误差。通常,我们可以用过去数据点提供的信息(针对与时间有关的数据)或用相邻数据点提供的信息(针对与空间有关的数据)来提高预测结果。

不考虑相关误差的主要问题在于:往往你会利用这一相关性,得到更好的未来事件预测数据或空间关联事件预测数据。

要判断是否有相关误差,最常用的方法是观察收集数据的域。要是你不确定的话,你可以试试一个叫 Durbin-Watson 的检验方法,人们常用该测试来评估误差相关性是否造成问题。还有 ARIMA 或 ARMA 模型,人们常用这两个模型来利用误差相关性,以便做出更佳预测。

非恒定方差和正态分布误差
你预测的值不同,得到的预测值范围也不同,那就意味着方差不恒定。非恒定方差对预测好坏影响不大,但会导致置信区间和 p 值不准确,这种时候,在预测值接近实际值的那部分区域,系数的置信区间会太泛,而在预测值较远离实际值的区域则会太窄。

通常来说,对数函数(或使用其它反应变量的变换方式)能够 “摆脱” 非恒定方差,而要选择合适的变换方式,我们一般会用 Box-Cox。

用预测值的残差图也可以评估非恒定方差。在本页底部的图片中,非恒定方差的标签为 异方差。理想来说,我们要的是一个有异方差残差的无偏模型(其异方差残差在一定数值范围内保持不变)。

虽然本文并不探讨残差的正态性,如果你想创建可靠的置信区间,正态性回归假设就十分重要了,更多相关信息详见 这里。

异常值/杠杆点
异常值和杠杆点是远离数据正常趋势的点。这些点会对你的解造成很大的影响,在现实中,这些点甚至可能是错误的。如果从不同来源收集数据,你就可能在记录或收集过程中造成某些数据值出错。

异常值也可能是准确真实的数据点,而不一定是测量或数据输入错误。在这种情况下,'修复'就会变得更为主观。要如何处理这些异常值往往取决于你的分析目的。线性模型,特别是使用最小二乘法的线性模型,比较容易受到影响,也就是说,大异常值可能会大幅度地左右我们的结果。当然,异常值也有一些解决技巧,也就是我们常说的 正则化。本课不会谈及这些技巧,但在https://classroom.udacity.com/courses/ud120,我们对这些技巧做了粗略的介绍。

而在宾夕法尼亚州立大学提供的完整回归课程里,就有特别长的篇幅在探讨杠杆点的问题,详见 https://onlinecourses.science.psu.edu/stat501/node/336。

共线性(多重共线性)
如果我们的自变量彼此相关,就会出现多重共线性。多重共线性的一个主要问题在于:它会导致简单线性回归系数偏离我们想要的方向。

要判断是否有多重共线性,最常见的办法是借助二变量图或 方差膨胀因子 (即 VIFs)。


  • 大小: 123.1 KB
分享到:
评论

相关推荐

    王松桂《线性统计模型——线性回归与方差分析》第一章课件

    在《线性统计模型——线性回归与方差分析》这门课程中,学生将学习到线性模型的基础理论和实践应用,以及如何通过数学和统计的方法去解决实际问题。通过理论学习和上机实验相结合,学生能够更深入地理解线性模型的...

    Advertising-线性回归测试数据集

    线性回归是一种广泛应用的统计分析方法,用于研究两个或多个变量之间的关系,特别是连续变量之间的关系。...通过实际操作,我们可以更好地理解和应用线性回归,从而在现实世界的问题中做出明智的决策。

    线性回归 建模 评估

    通过这些分析,我们可以评估模型的有效性和预测能力,同时还可以识别潜在的问题,如多重共线性(自变量之间高度相关)或异方差性(残差方差随自变量变化而变化)。如果发现模型不符合假设,可能需要调整模型结构或...

    曲线拟合&&线性回归(C#)

    曲线拟合与线性回归是数据建模和分析中的核心概念,尤其在计算机科学和统计学领域中广泛应用。本文将详细探讨这两个主题,并结合C#编程语言,介绍如何实现它们。 首先,我们要理解曲线拟合的基本思想。曲线拟合是一...

    MATLAB源码集锦-多元非线性回归代码

    5. **可视化结果**:绘制残差图、预测值与实际值的散点图,以及自变量与因变量的关系曲线,有助于理解模型的拟合程度和潜在问题。 6. **不确定性分析**:对于参数估计的不确定性,可以使用bootstrapping或蒙特卡洛...

    基于python的线性回归和聚类分析预测糖尿病

    在这个项目中,可能先使用聚类方法探索数据的内在结构,找出潜在的风险群体,然后再用线性回归模型对每个簇分别进行预测,以获得更精确的结果。通过这种方式,我们可以更深入地理解糖尿病发病的模式,并可能找到高...

    spss教程之线性回归

    ### SPSS教程之线性回归:深度解析与实践应用 #### 线性回归模型的深入探讨 线性回归是统计学中一种重要的预测模型,主要用于分析和预测一个连续型因变量与一个或多个自变量之间的关系。在SPSS软件中,线性回归...

    线性回归指标 - MetaTrader 4脚本.zip

    2. **线性回归通道**:由线性回归线扩展形成的一个带状区域,通常表示价格的潜在波动范围。通道的宽度可以根据标准差或其它统计量来确定,以反映价格的波动性。 3. **交叉点**:当线性回归线与价格图表或其他技术...

    模糊线性回归模型及其应用

    在文章中,作者给出了模糊一元线性回归模型的具体形式,以及如何将模糊回归模型转化为最优化模型问题,并给出了基于最小二乘法的参数和模糊度函数的确定方法。同时,文章还定义了模糊度函数的概念,即两个模糊数之间...

    单变量线性回归可视化演示

    单变量线性回归是一种基本的统计学方法,用于研究两个变量之间的关系,其中一个变量作为预测变量(自变量),另一个变量作为响应变量(因变量)。在这个案例中,我们关注的是使用Python编程语言进行可视化演示。...

    多元线性回归问题.zip

    `RandomForestHandWrite.py`文件可能涉及到随机森林回归,这是一种非线性的集成学习方法,有时用于处理线性回归无法有效解决的复杂问题。随机森林通过对多棵决策树进行集成来预测目标变量,以提高预测准确性和降低过...

    数据分析基础-广义多元线性回归方程的构建.pdf

    在数据分析的众多工具和方法中,多元线性回归分析是一个重要的统计技术,它可以用来研究一个因变量(Y)与多个自变量(X1、X2、X3、X4……)之间的线性关系。当我们讨论广义多元线性回归方程时,我们指的是那些应...

    利用Matlab编程计算非线性回归模型

    在给定的文件信息中,我们探讨的主题是利用MATLAB编程计算非线性回归模型,具体涉及的是如何通过Logistic曲线模型对特定数据集进行拟合。Logistic曲线模型是一种常用的非线性回归模型,特别适用于描述有上限或下限的...

    基于多元线性回归模型的医疗费用预测分析

    在医疗费用预测领域,多元线性回归模型是一种常用的方法,它可以帮助我们理解不同因素如何影响医疗费用,并作出预测。在本案例中,我们基于阿里云天池大赛提供的医疗费用个人数据集进行分析。数据预处理是任何数据...

    机器学习-线性回归实践

    在本实践项目中,我们将深入理解线性回归的概念、原理以及如何在实际问题中应用。 线性回归的核心思想是寻找一个最佳的直线(或多维空间中的超平面),这条直线能够最好地拟合数据点,使得所有数据点到直线的距离...

    Python实现多元线性回归模型信用卡客户价值预测项目源码+数据+项目设计报告.zip

    Python实现多元线性回归模型信用卡客户价值预测项目源码+数据+项目设计报告.zip代码实现 1、导入Python库,引入所需的功能和模块。 import matplotlib.pyplot as plt # 用于绘制数据可视化图形,例如折线图、散点图等...

    第8章 数据拟合.zip_回归_回归拟合_回归算法_线性回归拟合_线性拟合

    逻辑回归则是一种特定类型的非线性回归,常用于分类问题,尤其是二分类问题。 在实际应用中,除了选择合适的模型类型,还需要考虑模型的解释性、复杂度和过拟合风险。模型的复杂度与预测能力之间存在权衡,过于复杂...

Global site tag (gtag.js) - Google Analytics