`

21种回归算法整理

阅读更多
回归分析是预测建模技术的一种形式,它研究因变量(目标)与自变量(预测变量)之间的关系 。该技术用于预测,时间序列建模以及查找变量之间的因果关系。例如,通过回归研究逃课次数与期末成绩的关系。
线性和逻辑回归通常是人们在数据科学中学习的第一个算法。由于它们的流行,许多分析师甚至最终认为它们是回归的唯一形式。参与程度稍高的人都知道它们是所有形式的回归分析中最重要的。
事实是,可以执行无数种形式的回归。每种形式都有其自身的重要性和最适合应用的特定条件。在本文中,将介绍其中的21种回归算法:
1.简单线性回归(Simple Linear Regression )
2.逻辑回归(Logistic regression)
3.套索回归(Lasso Regression) 
4.多元回归(ultivariate Regression)
5.神经网络回归(Neural Network Regression)
6.决策树回归(Decision Tree Regression)
7.岭回归(Ridge Regression)
8.ElasticNet Regression
9.多项式回归(Polynomial Regression)
10.托比特回归(Tobit Regression)
11.逐步回归(Stepwise Regression)
12.分位数回归(Quantile Regression)
13.主成分回归(Principal Components Regression (PCR))
14.偏最小二乘回归(Partial Least Squares (PLS) Regression)
15.支持向量回归(Support Vector Regression)
16.有序回归(Ordinal Regression)
17.泊松回归(Poisson Regression)
18.负二项回归(Negative Binomial Regression)
19.准泊松回归(Quasi Poisson Regression)
20.考克斯回归(Cox Regression)

各回归算法的概要介绍如下:
1.简单线性回归(Simple Linear Regression )
线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或多个自变量(X)之间建立关系。
它由等式Y = a + b * X + e表示,其中a是截距,b是直线的斜率,e是误差项。该方程式可用于基于给定的预测变量来预测目标变量的值。
2.逻辑回归(Logistic regression)                             
用于查找事件=成功和事件=失败的概率。当因变量本质上是二进制(0/1,True / False,Yes / No)时,我们应该使用逻辑回归。在此,Y的值在0至1的范围内,并且可以由以下等式表示。在线性回归的基础上做归一化处理即可得到逻辑回归

3.套索回归(Lasso Regression)                                
与“岭回归”相似,“套索”(最小绝对收缩和选择算子)也惩罚了回归系数的绝对大小。此外,它能够减少变异性并提高线性回归模型的准确性。看下面的方程式:套索回归与岭回归的不同之处在于,它在惩罚函数中使用绝对值而不是平方。这导致惩罚(或等效地约束估计的绝对值之和)值,这导致某些参数估计精确地变为零。施加的惩罚越大,则估计值进一步缩水至绝对零。这导致从给定的n个变量中选择变量。
4.多变量回归(Multivariate Regression)                       
多元回归是一种用于测量一个以上自变量(预测因子)和一个以上因变量(反应因子)线性相关程度的方法。该方法被广泛用于预测响应变量的行为,该响应变量与预测变量的变化相关联,一旦建立了期望的关系程度。多元回归是一种有监督的机器学习算法,涉及多个数据变量进行分析。多元回归是具有一个因变量和多个自变量的多元回归的扩展。基于自变量的数量,我们试图预测输出。
5.神经网络回归(Neural Network Regression)                   
通过将最后一个激活函数(输出神经元)替换为线性激活函数,可以将输出映射到固定类别之外的各种值。这样,输出不是将输入分类为任何一个类别的概率,而是神经网络将观测值置于其上的连续值。从这个意义上讲,它就像是线性回归的神经网络的补充。

神经网络回归具有非线性(除了复杂性)的优点,可以在神经网络中较早地通过S型和其他非线性激活函数引入神经网络。但是,由于ReLU忽略了负值之间的相对差异,因此过度使用ReLU(整流线性单位)作为激活函数可能意味着该模型倾向于避免输出负值。这可以通过限制ReLU的使用并添加更多负值的适当激活函数来解决,也可以通过在训练之前将数据标准化为严格的正范围来解决。
6.决策树回归(Decision Tree Regression)                      
分类和回归中的决策树非常相似,因为两者都通过构造是/否节点的树来工作。但是,虽然分类结束节点导致单个类值(例如,对于二进制分类问题为1或0),但是回归树以连续值(例如4593.49或10.98)结尾。由于回归的特殊性和高变异性仅作为机器学习任务,因此决策树回归器需要仔细修剪。但是,它进行回归的方式是不规则的-而不是连续地计算值,而是到达设定的最终节点-如果回归器被修剪得太多,则最终节点太少而无法正确地完成其任务。

因此,应该修剪决策树,使其具有最大的自由度(可能的输出回归值-末端节点的数量),但又不够,以至于它太深。如果不进行修剪,由于回归的本质,已经高方差的算法将在过度拟合的复杂性上急剧上升。
7.岭回归(Ridge Regression)                                  
岭回归是一种当数据遭受多重 线性(单独变量高度相关)时使用的技术。在多重 线性中,即使最小二乘估计(OLS)是无偏的,它们的方差也很大,这使观测值偏离了真实值。通过在回归估计中增加一定程度的偏差,岭回归可以减少标准误差。
8.ElasticNet Regression                                       
ElasticNet是Lasso和Ridge回归技术的混合。  事先用L1和L2训练它作为正则化器。当存在多个相互关联的功能时,Elastic-net很有用。套索可能会随机选择其中之一,而弹性网可能会同时选择两者。
在Lasso和Ridge之间进行折衷的一个实际优势是,它允许Elastic-Net在旋转条件下继承Ridge的某些稳定性。
9.多项式回归(Polynomial Regression)                        
如果自变量的幂大于1,则回归方程式是多项式回归方程式。以下方程式表示多项式方程式:

y = a + b * x ^ 2
10.托比特回归(Tobit Regression)                             
当检查存在因变量时,它用于估计变量之间的线性关系。检查是指当我们观察所有观察值的自变量时,但我们仅知道在有??限观察范围内因变量的真实值。某个范围内的depends值报告为单个值。审查的详细说明如下:
当感兴趣的事件在研究结束之前未发生时,将进行权利审查。研究不能在所考虑的研究期结束之前等待受试者的事件。假设您正在建立一个客户损耗模型,其中因变量是二进制的(损耗或仍属于公司)对于那些仍在公司(未损耗)的客户,即使研究结束(2年)也被右删减。
左审查是指在注册之前已经发生了感兴趣的事件。这很少遇到
11.逐步回归(Stepwise Regression)                            
当我们处理多个自变量时,将使用这种形式的回归。在这种技术中,自变量的选择是在自动过程的帮助下完成的,该过程 无需人工干预。

通过观察R-square,t-stats和AIC度量等统计值来识别重要变量,可以实现这一壮举。逐步回归基本上可以通过基于指定条件一次添加/删除一个协变量来拟合回归模型。
12.分位数回归(Quantile Regression)                          
分位数回归是线性回归的扩展,通常在数据中存在异常值,高偏度和异方差的情况下使用它。

在线性回归中,我们预测给定自变量的因变量平均值。由于均值不能描述整个分布,因此对均值建模并不是对因变量和自变量之间关系的完整描述。因此,我们可以使用分位数回归来预测给定自变量的分位数(或百分位数)。
13.主成分回归(Principal Components Regression (PCR))        
当您有许多自变量或数据中存在多重 线性时,PCR是一种广泛使用的回归技术。主成分分析是一种在原始要素高度相关时提取新要素的统计方法。我们在原始功能的帮助下创建新功能,以使新功能不相关。应当指出,PCR不是特征选择技术,而是特征提取技术。我们获得的每个主要成分都是所有功能的函数。因此,在使用主成分时,将无法解释哪个因素在何种程度上影响了因变量。
14.偏最小二乘回归(Partial Least Squares (PLS) Regression)   
当您具有高度相关的自变量时,这是主成分回归的另一种方法。当存在大量自变量时,它也很有用。PLS和PCR之间的区别
两种技术都创建了称为成分的新自变量,这些成分是原始预测变量的线性组合,但是PCR生成的成分用于解释预测变量中观察到的可变性,而根本不考虑响应变量。虽然PLS考虑了因变量,因此通常会导致模型能够以更少的组件拟合因变量。
15.支持向量回归(Support Vector Regression)                  
支持向量回归可以求解线性和非线性模型。SVM使用非线性核函数(例如多项式)来找到非线性模型的最佳解决方案。

SVR的主要思想是使误差最小化,个性化超平面,从而使裕度最大化。
16.序数回归(Ordinal Regression)                             
序数回归用于预测排名值。简而言之,当因变量本质上是序数时,这种类型的回归适用。序数变量示例-调查响应(1至6级),患者对药物剂量的反应(无,轻度,严重)。
17.泊松回归(Poisson Regression)                             
当因变量具有计数数据时, 将使用Poisson回归。
因变量必须满足以下条件-
因变量具有泊松分布。
计数不能为负。
此方法不适用于非整数
18.负二项回归(Negative Binomial Regression)                 
与泊松回归一样,它也处理计数数据。问题是“它与泊松回归有何不同”。答案是负二项式回归不假设方差等于其均值的计数分布。泊松回归假设方差等于其均值。
19.准泊松回归(Quasi Poisson Regression)                     
它是负二项式回归的替代方法。它也可以用于过度分散的计数数据。两种算法都给出相似的结果,但在估计协变量的效果方面存在差异。拟泊松模型的方差是均值的线性函数,而负二项式模型的方差是均值的二次函数。
20.考克斯回归(Cox Regression)                               
适用于事件时间数据。
分享到:
评论

相关推荐

    机器学习-线性回归整理PPT

    在【标题】"机器学习-线性回归整理PPT"中,提到了几种线性回归的变种和方法: 1. **最小二乘法**是最常见的求解线性回归的方法,它的目标是最小化所有样本点到回归线的欧氏距离之和,即均方误差。通过求导并设置偏导...

    数学建模国赛获奖论文-按35种模型算法分类整理

    数学建模国赛获奖论文—按35种模型算法分类整理,包含topsis法,博弈论,层次分析,插值,典型相关分析,动态规划,多远回归,方差分析,灰色关联分析,灰色预测,聚类模型,决策树,粒子群算法,逻辑回归,马尔科夫...

    公众号算法整理1

    支持向量机是一种监督学习算法,常用于分类和回归任务。它通过构建最大间隔超平面来区分不同类别的数据。描述中提到,当对象具有4个或更多指标时,SVM的效果较好。这是因为更多的特征可以帮助构建更复杂的决策边界...

    数学建模matlab常用算法代码整理集合.rar

    数学建模matlab常用算法代码整理的集合,包含神经网络图像分类代码,图论算法软件,小波神经网络预测代码,元胞自动机代码,Dijkstra算法找最短路径代码,Floyd算法求最小距离代码,GRNN的数据预测-基于广义回归神经...

    美赛常用模型:种群竞争,层次分析,线性规划,灰色预测,多元回归等算法整理

    1、资源内容:种群竞争,层次分析,线性规划,灰色预测,多元回归等算法整理 2、适用人群:计算机,电子信息工程、数学等专业的学习者,作为美赛备赛“参考资料”参考学习使用。 3、解压说明:本资源需要电脑端使用...

    贝叶斯向量自回归MATLAB代码,matlab贝叶斯算法,matlab

    贝叶斯向量自回归(Bayesian Vector Autoregression,简称BVAR)是一种在经济学、金融学以及其他领域广泛应用的统计模型,它结合了贝叶斯统计与向量自回归(VAR)模型,用于分析和预测多变量时间序列数据。...

    MATLAB算法回归预测分析MATLAB代码

    1. 数据准备:收集并整理数据,以确保它们适合于进行回归分析。数据需要包括自变量(解释变量)和因变量(响应变量)。 2. 模型选择:根据数据特点和分析目的选择合适的回归模型,比如线性回归、多项式回归、逻辑...

    30个算法程序整理 pdf

    《30个算法程序整理》PDF是一份针对数学建模的综合资源,涵盖了数学建模过程中可能用到的多种重要算法。这份文档旨在提供一个全面的算法库,以帮助研究者和学生解决各种复杂的数学问题。以下是其中部分关键算法的...

    MATLAB30个算法程序整理

    在这个“MATLAB30个算法程序整理”中,我们很显然会发现一系列与数学建模相关的算法实现,这些算法涵盖了数学建模过程中的各种常见问题。 1. **线性代数算法**:MATLAB提供了强大的线性代数工具,如解线性方程组、...

    机器学习算法介绍整理.docx

    回归算法是监督学习中的重要工具,如线性回归和逻辑回归。线性回归预测连续变量,而逻辑回归则用于预测离散值。它们都因其快速的计算速度而受到欢迎。 K-最近邻(K-Nearest Neighbors, KNN)是另一类监督学习算法,...

    sklearn聚合算法整理

    在实际应用中,这些聚合算法常常用于分类和回归任务。例如,随机森林可以处理多分类问题,而Gradient Boosting则常用于连续值预测。同时,它们也广泛应用于特征选择,因为可以通过观察各个决策树节点的分裂特征来...

    偏最小二乘算法(Partial Least Squares,PLS)的回归应用

    偏最小二乘算法(Partial Least Squares,PLS)是一种常见的多元线性回归算法,MATLAB在R2008a版本已经加入了PLS算法的实现函数。 该代码把偏最小二乘算法(Partial Least Squares,PLS)的回归应用整理为“读取数据...

    matlab统计算法程序

    本压缩包“matlab统计算法程序”包含了与统计学相关的算法实现,旨在帮助用户更好地理解和应用统计方法。下面我们将详细探讨这些算法及其在MATLAB中的实现。 一、基本统计量计算 MATLAB提供了计算基本统计量的函数...

    利用梯度下降法实现线性回归的算法及matlab实现_20170515[整理].pdf

    利用梯度下降法实现线性回归的算法及matlab实现_20170515[整理].pdf

    30个算法程序整理.rar

    在数学建模中,算法是解决问题的关键工具,MATLAB作为一种强大的计算环境,是实现这些算法的理想平台。"30个算法程序整理.rar"这个压缩包很可能包含了多种算法的MATLAB实现,涵盖了各种数学模型和应用领域。以下是...

    按照算法分类的数模优秀论文(2).rar

    支持向量机(SVM)是一种监督学习模型,擅长分类和回归任务。SVM通过找到最大边距超平面来分离数据,对小样本和高维数据有良好表现,能应用于各种数模场景。 最后,图论中的Dijkstra模型算法常用于寻找网络中最短...

    机器学习算法研究沉淀

    本文整理了机器学习中大多数算法,包括:分类算法、回归算法、聚类算法、推荐系统算法、异常检测算法、关联分析算法,本文从算法介绍、算法优势、参数介绍、调优方法、使用场景、demo示例等6大方面介绍算法的全貌。

    数学建模算法整理.doc

    在这个文档中,主要探讨了两种核心的数学建模算法:随机性模拟(以蒙特卡罗算法为例)和数据拟合、参数估计及插值。 1. **蒙特卡罗算法**: 蒙特卡罗算法是一种基于随机抽样或统计试验的计算方法,常用于解决那些...

Global site tag (gtag.js) - Google Analytics