`

保序回归

阅读更多

保序回归(英文:Isotonic regression)在数值分析中指的是在保序约束下搜索一个加权 w 的最小二乘 y 以拟合变量 x,它是一个二次规划问题

 



 

python的实现版本:http://scikit-learn.org/stable/auto_examples/plot_isotonic_regression.html#example-plot-isotonic-regression-py

 

spark中的实现版本:https://spark.apache.org/docs/1.4.1/mllib-isotonic-regression.html

 

给个简单的例子:

 

问题描述:给定一个无序数字序列y,通过修改每个元素的值得到一个非递减序列 y‘ ,问如何使y和 y’ 误差(该处取平方差)最小?

保序回归法:从该序列y的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收紧跟在后面的元素组成一个子序列sub_y,直到子序列sub_y所有元素的平均值小于或等于下一个待吸收的元素。

举例:

原始序列:<9, 10, 14>

结果序列:<9, 10, 14>

分析:从9往后观察,到最后的元素14都未发现乱序情况,不用处理。

原始序列:<9, 14, 10>

结果序列:<9, 12, 12>

分析:从9往后观察,观察到14时发生乱序(14>10),停止该轮观察转入吸收元素处理,吸收元素10后子序列为<14, 10>,取该序列所有元素的平均值得12,故用序列<12, 12>替代<14, 10>。吸收10后已经到了最后的元素,处理操作完成。

 

原始序列:<14, 9, 10,  15>

结果序列:<11, 11, 11, 15>

分析:从14往后观察,观察到9时发生乱序(14>9),停止该轮观察转入吸收元素处理,吸收元素9后子序列为<14, 9>。求该序列所有元素的平均值得12.5,由于12.5大于下个带吸收的元素10,所以再吸收10,得序列<14, 9, 10>。求该序列所有元素的平均值得11,由于11小于下个带吸收的元素15,所以停止吸收操作,用序列<11, 11, 11>替代<14, 9, 10>。

 

例子来源:http://blog.csdn.net/fsz521/article/details/7706250

  • 大小: 3.3 KB
0
2
分享到:
评论

相关推荐

    数据回归-保序回归的算法及应用.pdf

    保序回归(Isotonic Regression)是一种统计学中的回归分析方法,主要应用于处理有序数据,保证预测模型的输出随输入的增加而单调增加或单调减少。这种方法最初在药物剂量反应研究中得到应用,用于评估药物剂量与...

    多面体逼近在保序回归问题中的应用 (2009年)

    研究了多面体最佳逼近算法在保序回归中的应用。对于多种广义保序回归及多维保序回归问题的求解,给出了较已往便捷精确的算法;并解决了含两个独立变量的保序回归的算法问题。

    11 种回归模型的原理+代码.docx

    - **保序回归** - **多项式回归** - **多输出回归** - **多输出K近邻回归** - **决策树回归** - **多输出决策树回归** - **AdaBoost回归** - **梯度提升决策树回归** - **人工神经网络** - **随机森林回归** - **多...

    spark ml 算法原理剖析以及具体的源码实现分析

    保序回归 聚类 k-means||算法 GMM(高斯混合模型) PIC(快速迭代聚类) LDA(隐式狄利克雷分布) 二分k-means算法 流式k-means算法 最优化算法 梯度下降算法 拟牛顿法 NNLS(非负最小二乘) 带权最小二乘 迭代再加权...

    4-3+阿里妈妈展示广告预估校准演进之路.pdf

    分桶基于预估值大小创建校准维度,保序回归利用模型的排序能力解决数据稀疏问题,线性插值则确保校准函数的连续性。SIR算法尤其适用于新计划的冷启动问题,能够快速适应和改善投放效果。 在校准算法的演进过程中,...

    巴巴妈妈展示广告预估校准演进之路2021.4(21页).pdf

    阿里妈妈提出了SIR(Smoothed Isotonic Regression)算法,该算法通过分桶策略将预估值分段,利用保序回归处理数据稀疏问题,再通过线性插值确保校准函数的连续性。SIR在新计划的冷启动阶段特别有用,能快速适应...

    史上最全的机器学习面试题-机器学习爱好者必看 (2).pdf

    监督学习的校准是确保模型给出的概率预测准确的方法,如普拉特校准和保序回归。这些技术有助于提升模型的可信度,使其预测结果更接近实际概率。 综上所述,机器学习面试题涵盖了从基本概念到高级技术的各个方面,...

    史上最全的机器学习面试题-机器学习爱好者必看 (2).docx

    模型选择是确定哪个模型最适合描述数据集的过程,而监督学习中的概率校准方法如普拉特校准和保序回归则是为了得到更可靠的预测概率。 以上是机器学习面试中可能遇到的一些关键知识点,理解并掌握这些概念对于机器...

    IOI国家集训队论文集1999-2019

    + [序](#序) + [系](#系) + [物理问题](#物理问题) + [编码与译码](#编码与译码) + [对策问题](#对策问题) * [优化](#优化-2) + [算法优化](#算法优化) + [程序优化](#程序优化) + [语言](#语言) * [策略]...

    7个回归分析方法思维导图.png

    • 如果因变量的值是定序变量,则称它为序逻辑回归 • 如果因变量是多类的话,则称它为多元逻辑回归 3. 多项式回归(Polynomial Regression) 对于一个回归方程,如果自变量的指数大于1,那么它就是...

    保序调整对线性回归影响的试验分析 (2012年)

    采用数学试验方法模拟随机变量,考察满足序关系的变量关于自变量的线性回归,研究并对比在这种情况下直接应用最小二乘线性回归与先对观察到的因变量使用PAVA算法进行保序调整再应用最小二乘线性回归的优劣。...

    IOI2018中国国家候选队论文集正式版

    《后缀树结点数》命题报告及一类区间问题的优化 陈江伦 11 浅谈保序回归问题 高睿泉 23 《Fim 4》命题报告 吴瑾昭 34 解决树上连通块问题的一些技巧和工具 任轩笛 45 《Jellyfish》命题报告及拓展探究 梁晏成 58 ...

    多个正态总体均值与标准差比在简单树序约束下的最大似然估计 (2008年)

    考虑k( k&gt;3) 个正态总体均值与标准差( 均值和标准差均未知) 之比在简单树序约束下最大似然估计的求解问题, 应用保序回归理论给出了计算均值和标准差最大似然估计的迭代算法, 并证明了所给迭代算法是收敛的, 给出了k=...

    SMO.rar_序贯_序贯算法_支持向量机_支持向量求解

    支持向量机(Support Vector Machine,SVM)是一种广泛应用的监督学习模型,尤其在分类和回归分析中表现出色。它的核心思想是找到一个最优超平面,使得两类样本被最大程度地分隔开。在这个过程中,支持向量起到了...

    机器学习-第2章-概念学习和一般到特殊序

    《机器学习-第2章-概念学习和一般到特殊序》深入探讨了机器学习的核心概念——从特定样例中学习并归纳出一般性规律。...这对于理解和实现各种机器学习算法至关重要,特别是在监督学习场景下,如分类和回归问题。

    Statistical Change Detection by the Pool Adjacent Violators Algorithm

    该方法通过将干扰因素对图像的影响建模为像素强度的局部保序变换加上加性噪声,从而能够在所有可能的图像变化模式中识别出由干扰因素产生的子空间。通过对测量到的变化模式与干扰因素效应子空间之间的距离进行统计...

    ”倾向值分析“中文版序扫描.pdf

    《倾向值分析》这本书不仅介绍了理论框架,还涵盖了多种倾向值分析的技术,包括匹配、逆概率加权、倾向值调整回归等方法。这些方法在公共卫生、经济学、教育学等多个领域有着广泛的应用,帮助研究者在无法进行随机...

    几种常用的试验设计

    本文将详细介绍几种常用的试验设计方法,包括对比试验设计、随机试验设计、线性反应试验设计、正交试验设计、回归的正交设计(响应面设计)和均匀试验设计。同时,这些试验设计方法中涉及到的数据处理系统、方差分析...

Global site tag (gtag.js) - Google Analytics