21种回归算法整理

黄国甫

浏览: 46688 次
性别:
来自: 南昌

最近访客更多访客>>

haima2013

zhang66893649

shallow_dream

Alchemize

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据科学

算法

回归分析是预测建模技术的一种形式，它研究因变量（目标）与自变量（预测变量）之间的关系。该技术用于预测，时间序列建模以及查找变量之间的因果关系。例如，通过回归研究逃课次数与期末成绩的关系。
线性和逻辑回归通常是人们在数据科学中学习的第一个算法。由于它们的流行，许多分析师甚至最终认为它们是回归的唯一形式。参与程度稍高的人都知道它们是所有形式的回归分析中最重要的。
事实是，可以执行无数种形式的回归。每种形式都有其自身的重要性和最适合应用的特定条件。在本文中，将介绍其中的21种回归算法：
1.简单线性回归（Simple Linear Regression ）
2.逻辑回归（Logistic regression）
3.套索回归（Lasso Regression）
4.多元回归（ultivariate Regression）
5.神经网络回归（Neural Network Regression）
6.决策树回归（Decision Tree Regression）
7.岭回归（Ridge Regression）
8.ElasticNet Regression
9.多项式回归（Polynomial Regression）
10.托比特回归（Tobit Regression）
11.逐步回归（Stepwise Regression）
12.分位数回归（Quantile Regression）
13.主成分回归（Principal Components Regression (PCR)）
14.偏最小二乘回归（Partial Least Squares (PLS) Regression）
15.支持向量回归（Support Vector Regression）
16.有序回归（Ordinal Regression）
17.泊松回归（Poisson Regression）
18.负二项回归（Negative Binomial Regression）
19.准泊松回归（Quasi Poisson Regression）
20.考克斯回归（Cox Regression）

各回归算法的概要介绍如下：
1.简单线性回归（Simple Linear Regression ）
线性回归使用最佳拟合直线（也称为回归线）在因变量（Y）和一个或多个自变量（X）之间建立关系。
它由等式Y = a + b * X + e表示，其中a是截距，b是直线的斜率，e是误差项。该方程式可用于基于给定的预测变量来预测目标变量的值。
2.逻辑回归（Logistic regression）
用于查找事件=成功和事件=失败的概率。当因变量本质上是二进制（0/1，True / False，Yes / No）时，我们应该使用逻辑回归。在此，Y的值在0至1的范围内，并且可以由以下等式表示。在线性回归的基础上做归一化处理即可得到逻辑回归

3.套索回归（Lasso Regression）
与“岭回归”相似，“套索”（最小绝对收缩和选择算子）也惩罚了回归系数的绝对大小。此外，它能够减少变异性并提高线性回归模型的准确性。看下面的方程式：套索回归与岭回归的不同之处在于，它在惩罚函数中使用绝对值而不是平方。这导致惩罚（或等效地约束估计的绝对值之和）值，这导致某些参数估计精确地变为零。施加的惩罚越大，则估计值进一步缩水至绝对零。这导致从给定的n个变量中选择变量。
4.多变量回归（Multivariate Regression）
多元回归是一种用于测量一个以上自变量(预测因子)和一个以上因变量(反应因子)线性相关程度的方法。该方法被广泛用于预测响应变量的行为，该响应变量与预测变量的变化相关联，一旦建立了期望的关系程度。多元回归是一种有监督的机器学习算法，涉及多个数据变量进行分析。多元回归是具有一个因变量和多个自变量的多元回归的扩展。基于自变量的数量，我们试图预测输出。
5.神经网络回归（Neural Network Regression）
通过将最后一个激活函数（输出神经元）替换为线性激活函数，可以将输出映射到固定类别之外的各种值。这样，输出不是将输入分类为任何一个类别的概率，而是神经网络将观测值置于其上的连续值。从这个意义上讲，它就像是线性回归的神经网络的补充。

神经网络回归具有非线性（除了复杂性）的优点，可以在神经网络中较早地通过S型和其他非线性激活函数引入神经网络。但是，由于ReLU忽略了负值之间的相对差异，因此过度使用ReLU（整流线性单位）作为激活函数可能意味着该模型倾向于避免输出负值。这可以通过限制ReLU的使用并添加更多负值的适当激活函数来解决，也可以通过在训练之前将数据标准化为严格的正范围来解决。
6.决策树回归（Decision Tree Regression）
分类和回归中的决策树非常相似，因为两者都通过构造是/否节点的树来工作。但是，虽然分类结束节点导致单个类值（例如，对于二进制分类问题为1或0），但是回归树以连续值（例如4593.49或10.98）结尾。由于回归的特殊性和高变异性仅作为机器学习任务，因此决策树回归器需要仔细修剪。但是，它进行回归的方式是不规则的-而不是连续地计算值，而是到达设定的最终节点-如果回归器被修剪得太多，则最终节点太少而无法正确地完成其任务。

因此，应该修剪决策树，使其具有最大的自由度（可能的输出回归值-末端节点的数量），但又不够，以至于它太深。如果不进行修剪，由于回归的本质，已经高方差的算法将在过度拟合的复杂性上急剧上升。
7.岭回归（Ridge Regression）
岭回归是一种当数据遭受多重线性（单独变量高度相关）时使用的技术。在多重线性中，即使最小二乘估计（OLS）是无偏的，它们的方差也很大，这使观测值偏离了真实值。通过在回归估计中增加一定程度的偏差，岭回归可以减少标准误差。
8.ElasticNet Regression
ElasticNet是Lasso和Ridge回归技术的混合。事先用L1和L2训练它作为正则化器。当存在多个相互关联的功能时，Elastic-net很有用。套索可能会随机选择其中之一，而弹性网可能会同时选择两者。
在Lasso和Ridge之间进行折衷的一个实际优势是，它允许Elastic-Net在旋转条件下继承Ridge的某些稳定性。
9.多项式回归（Polynomial Regression）
如果自变量的幂大于1，则回归方程式是多项式回归方程式。以下方程式表示多项式方程式：

y = a + b * x ^ 2
10.托比特回归（Tobit Regression）
当检查存在因变量时，它用于估计变量之间的线性关系。检查是指当我们观察所有观察值的自变量时，但我们仅知道在有??限观察范围内因变量的真实值。某个范围内的depends值报告为单个值。审查的详细说明如下：
当感兴趣的事件在研究结束之前未发生时，将进行权利审查。研究不能在所考虑的研究期结束之前等待受试者的事件。假设您正在建立一个客户损耗模型，其中因变量是二进制的（损耗或仍属于公司）对于那些仍在公司（未损耗）的客户，即使研究结束（2年）也被右删减。
左审查是指在注册之前已经发生了感兴趣的事件。这很少遇到
11.逐步回归（Stepwise Regression）
当我们处理多个自变量时，将使用这种形式的回归。在这种技术中，自变量的选择是在自动过程的帮助下完成的，该过程无需人工干预。

通过观察R-square，t-stats和AIC度量等统计值来识别重要变量，可以实现这一壮举。逐步回归基本上可以通过基于指定条件一次添加/删除一个协变量来拟合回归模型。
12.分位数回归（Quantile Regression）
分位数回归是线性回归的扩展，通常在数据中存在异常值，高偏度和异方差的情况下使用它。

在线性回归中，我们预测给定自变量的因变量平均值。由于均值不能描述整个分布，因此对均值建模并不是对因变量和自变量之间关系的完整描述。因此，我们可以使用分位数回归来预测给定自变量的分位数（或百分位数）。
13.主成分回归（Principal Components Regression (PCR)）
当您有许多自变量或数据中存在多重线性时，PCR是一种广泛使用的回归技术。主成分分析是一种在原始要素高度相关时提取新要素的统计方法。我们在原始功能的帮助下创建新功能，以使新功能不相关。应当指出，PCR不是特征选择技术，而是特征提取技术。我们获得的每个主要成分都是所有功能的函数。因此，在使用主成分时，将无法解释哪个因素在何种程度上影响了因变量。
14.偏最小二乘回归（Partial Least Squares (PLS) Regression）
当您具有高度相关的自变量时，这是主成分回归的另一种方法。当存在大量自变量时，它也很有用。PLS和PCR之间的区别
两种技术都创建了称为成分的新自变量，这些成分是原始预测变量的线性组合，但是PCR生成的成分用于解释预测变量中观察到的可变性，而根本不考虑响应变量。虽然PLS考虑了因变量，因此通常会导致模型能够以更少的组件拟合因变量。
15.支持向量回归（Support Vector Regression）
支持向量回归可以求解线性和非线性模型。SVM使用非线性核函数（例如多项式）来找到非线性模型的最佳解决方案。

SVR的主要思想是使误差最小化，个性化超平面，从而使裕度最大化。
16.序数回归（Ordinal Regression）
序数回归用于预测排名值。简而言之，当因变量本质上是序数时，这种类型的回归适用。序数变量示例-调查响应（1至6级），患者对药物剂量的反应（无，轻度，严重）。
17.泊松回归（Poisson Regression）
当因变量具有计数数据时，将使用Poisson回归。
因变量必须满足以下条件-
因变量具有泊松分布。
计数不能为负。
此方法不适用于非整数
18.负二项回归（Negative Binomial Regression）
与泊松回归一样，它也处理计数数据。问题是“它与泊松回归有何不同”。答案是负二项式回归不假设方差等于其均值的计数分布。泊松回归假设方差等于其均值。
19.准泊松回归（Quasi Poisson Regression）
它是负二项式回归的替代方法。它也可以用于过度分散的计数数据。两种算法都给出相似的结果，但在估计协变量的效果方面存在差异。拟泊松模型的方差是均值的线性函数，而负二项式模型的方差是均值的二次函数。
20.考克斯回归（Cox Regression）
适用于事件时间数据。

分享到：

windows 下安装的mysql 寻找my.ini文件 | pydotplus.graphviz.InvocationException: ...

2020-10-20 10:42
浏览 4441
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论