`

模式识别和机器学习 笔记 第三章 线性回归模型

J# 
阅读更多
第三章 线性回归模型
    这章主要介绍线性回归模型,回归问题的目标是给一个D-维的输入变量,预测出一个或者多个目标连续
变量的值。第一章已经介绍了多项式曲线拟合的问题,这个是特殊的回归问题,被称为线性回归模型。
通过线性组合基本函数,可以获得很有用的一类函数,具有很简单的分析属性,并且由于基本函数
可以不是线性函数,所以相对于输入来说,具有非线性,可以描述相对复杂的问题。
    给一个由N个观测值组成的训练集{Xn},包括相应的目标值{tn},一种简单的方式是构建恰当的函数y(x),
给出一个输入x,可以得到预测的目标值t。然后更一般的,可以从概率的观点,我们的目标是建模预测分布p(t|x),
表达了我们对给定x预测出的目标值t的不确定性。我们可以通过最小化损失函数,从这个条件分布中得到预测值t。
   3.1 基本线性模型
   最简单的线性回归模型是输入参数的线性组合。y(x, w) = w0 + w1 x1 + . . . + wD xD
我们可以扩展它,考虑输入变量非线性函数的线性组合。通过使用非线性基本函数,我们可以得到y(x,w)
是关于x的非线性函数,但是参数是线性的,这个可以很大程度简化这类模型的分析。通常在模式识别中,
将最初的变量通过基本函数变换做预处理,被称为特征抽取或者特征选择。
   第一章多项式拟合的例子,基本函数是{x^j},多项式基本函数,它的缺点是它是相对于输入变量的
全局函数,在一个区域的变化会影响其他区域。这个可以通过将输入空间划分,然后在不同的空间拟合不同
的多项式。
   有很多可以选择的基本函数,比如高斯函数exp{-(x-uj)^2/2s^2},uj控制着基本函数在输入空间的
的位置,参数s控制这空间中值的大小。sigmoidal基本函数也经常被使用φj(x)=σ( (x-uj)/s )其中σ(x)是
logistic sigmoid函数σ(x) = 1/(1+exp(-x)),这个函数和tanh函数相关,并且tanh(x)= 2σ(x)-1.另
外可以选的函数有傅立叶基本函数,每一个基本函数代表了特定的频率和有限的空间,在空间和频率上都具有局部性,
这对信号处理有很大的用处,比如可用作小波变换的wavelets。本章的内容并不局限于具体的基本函数。
  3.1.1 最大似然估计和最小二乘法
第一章我们通过最小化错误平方和函数拟合多项式,并且这个错误函数可以通过高斯噪音模型的最大似然估计来得到
。我们下面更详细的介绍最小二乘法和最大似然估计的关系。
假设目标值t为y(x,w)和额外的高斯噪音,即:
t = y(x,w) + e
e是均值为0的高斯随机变量,精度为β,所以t|x,w,β满足均值为y(x,w),精度为β的高斯分布:
p(t|x,w,β) = N(t|y(x,w),β^-1)

高斯noise的假设隐含着条件分布t|x是单峰的,在一些其他的应用中可能并不适合。一个扩展方式是混合条件高斯分布,它允许多峰值的条件分布。

似然函数:
p(t|x,w,β) = Mult(1..N){N(tn|wTφ(xn),β^-1)}
log形式:
ln p(t|w, β)=N/2*ln β − N/2*ln(2π) − βED(w)
其中
ED(w) = 1/2*Sum(1..N){tn - wTφ(xn)}^2
计算lnp(t|w,β)梯度,得到wML =ΦT * Φ^−1 * ΦT * t
Φ是N * M的矩阵,被称为design matrix。 Φnj = φj(xn),

我们可以得到bias w0是目标值t的平均值和 基本函数权重和的平均值之差。
公式(3.19)。

3.1.2 最小二乘法几何属性:
从几何方面解释最小二乘法,最小二乘回归函数是通过寻找目标集合t向由基本函数φj(x)
组成的子空间的垂直投影得到,因为这个时候y(x,w)和t距离最近。参考图3.2

3.1.3 顺序学习(sequence learning)
最大似然的方法,一次处理需要整个的训练集,如果数据量很大,需要很大的内存和计算。
在第一章说过如果数据集很大,那么可以采用顺序学习的算法,也被称为在线学习算法。
这种算法每次考虑一个数据,每次模型参数得到更新。顺序学习也适用于观察的值来自于连续的数据流,在所有的数据流观察完之前能够做出预测。
我们可以通过随机梯度下降法( stochastic gradient descent)来实现这个算法。
w(τ+1) = w(τ) − η∇En
在最小二乘法中可以使用:
w(τ+1) = w(τ) + η(tn − w(τ)Tφn)φn
这个被称为least-mean-squares或者LMS算法。η称为学习率。

3.1.4 规范化的最小二乘化(Regularized least squares)
在1.1节已经介绍通过给错误函数添加规范化因子来控制过度拟合,所以最小化的错误函数
具有如下形式: ED(w) + λEW(w)
λ是规范化因子的系数,控制了依赖于数据的错误函数ED(w)和规范化因子EW(w)。
最简单的规范化是权重向量w的平方和:
EW(w) =1/2 * wT w.
结合最小化二乘法的错误函数:
E(w) =1/2 sum(1..N){tn − wTφ(xn)}^2
错误函数为:
1/2 sum(1..N){tn − wTφ(xn)}^2 + 1/2 * wTw.
通过使用规范化因子,可以使得参数缩小,趋向于0,这是机器学习和统计学所推荐的,
能够避免过度拟合。
使用这个规范化因子,使得错误函数仍然是关于w的二次函数,所以可以得到精确的最小化
形式。计算其关于w的梯度,使其为0,我们可以解出w
w = (λI + ΦTΦ)^−1 * ΦT * t.
一个更一般的规范化因子可以采用:
sum(1..N){|wj|^q}
当q为二的时候,就是我们采用的二次规范化因子。使用规范化因子可以在少量训练数据,
复杂模型的情况下,不至于严重的过度拟合。因为通过它可以限制有效模型的复杂性,
但是他将选择恰当的基本函数转化成为选择适当参数λ的问题了。

3.1.5 多输出问题:
前面我们一直考虑单个目标值t的问题,有些情况下我们需要预测多个目标值。我们可以通过
对于不同的组件t,引入不同的基本函数来做,这就是多值独立回归问题。然而一个比较有趣和常用的方式是,使用相同的基本函数集合来建模目标向量的多个组件:
y(x,w) = WTφ(x)
y被是k维列向量。W是M*K个参数的矩阵,φ(x)是M维的列向量,其元素可以用φj(x)表示
φ0(x) = 1.
如果我们将目标向量采用isotropic Gaussian条件分布,那么:
p(t|x,W, β) = N(t|WTφ(x), β^−1I).
我们计算其似然函数,和前面的一样,我们可以得到:
WML =(ΦTΦ)^−1 ΦTT.
3.2 偏置方差分解(Bias-Variance Decomposition)
我们到现在为止讨论的线性回归模型,假设它的形式和基本函数都是固定的。我们在第一章
看到使用最大似然或者等价的最小二乘法,在很少的数量的训练集上训练复杂的模型容易导致过度拟合。然而限制基本函数的数量来避免过度拟合会导致模型只能捕捉到有限的兴趣的和重要的特征。虽然规范化因子可以控制过度拟合,但是这会引起一个问题:我们如何在选择恰当的规范化系数λ。寻求关于权重向量w和规范化因子λ来最小化规范化错误函数并不是
正确的方法,因为这将导致非规范化的方法λ = 0.
我们在前面的章节中,过度拟合现象是最大似然方法一个不幸的固有属性,但是在贝叶斯的背景下关于参数边缘化不会引起这个问题。这章我们以贝叶斯的视角深度考虑模型的复杂性问题。在这之前我们先介绍以频率的观点讨论模型的复杂性,即:偏置方差折中。
在1.5.5节我们得到期望平方损失函数为:

我们将第一部分{y(x;D) − h(x)}^2添加减去ED[y(x;D)]展开
最后得到
ED{y(x;D) − h(x)}^2 = {ED[y(x;D)] − h(x)}^2 +ED{y(x;D) − ED[y(x;D)]}^2
第一部分是bias的平方,第二部分是方差。
我们的目标是最小化期望损失,最终我们将它分解为bias的平方、variance和常量的噪音。灵活的模型
会有很低的偏执和很高的方差,而严格的模型具有高bias和低variance。一个具有最有的
预测能力的模型,需要在偏执和方差之间平衡。

3.3 贝叶斯线性回归【待续】






分享到:
评论
6 楼 teddylw1611616 2011-09-14  
fuliang 写道
teddylw1611616 写道
Hi,我又想到了一个问题,就是对于规范化最小二乘法中,λ的取值选取问题。
我是不是应该先确定一个λ的范围,然后在这个范围中尝试不同的λ,选取可以使计算出的w导致误差最小的λ呢。
如果这样的话λ的范围该怎么确定呢?
希望得到你的指点,谢谢!


λ可以使用交叉验证去确定,就像第一章介绍的曲线拟合的问题一样。

嗯,谢谢啦!
5 楼 fuliang 2011-09-14  
teddylw1611616 写道
Hi,我又想到了一个问题,就是对于规范化最小二乘法中,λ的取值选取问题。
我是不是应该先确定一个λ的范围,然后在这个范围中尝试不同的λ,选取可以使计算出的w导致误差最小的λ呢。
如果这样的话λ的范围该怎么确定呢?
希望得到你的指点,谢谢!


λ可以使用交叉验证去确定,就像第一章介绍的曲线拟合的问题一样。
4 楼 teddylw1611616 2011-09-12  
Hi,我又想到了一个问题,就是对于规范化最小二乘法中,λ的取值选取问题。
我是不是应该先确定一个λ的范围,然后在这个范围中尝试不同的λ,选取可以使计算出的w导致误差最小的λ呢。
如果这样的话λ的范围该怎么确定呢?
希望得到你的指点,谢谢!
3 楼 teddylw1611616 2011-09-07  
fuliang 写道
teddylw1611616 写道
你好,我现在正在学习模式识别与机器学习这本书,想请教你几个问题不知行不行。
问题是关于第三章的,在3.1.1中,根据ln p(t|w,β)=0的梯度求出normal equation的这个过程中,我实在是不知道这中间的计算过程是怎么样的,自己算了很多遍也推导不出normal equation,所以想向你请教这个推导的过程,谢谢!
如果方便的话,我们可以邮件交流,我的邮箱是teddylw1611616@hotmail.com
非常感谢!


梯度等于0得到的那个等式,右边第一项
sum(n=1..N){tn * φ(xn)T)
是矩阵ΦT * t的矩阵乘法展开式
第二项是 wT(ΦT * Φ)矩阵乘法的展开式
所以得到:
0 = ΦT * t - wT(ΦT * Φ)
从而:
Wml = (ΦT * Φ)^-1 * ΦT * t


谢谢啦,我按照你说的又算了一下,终于明白了!
你这些读书笔记真的很好,看了之后比之前我自己看书对内容的理解深了很多。
希望看到更多读书笔记哈,向你学习!
2 楼 fuliang 2011-09-06  
teddylw1611616 写道
你好,我现在正在学习模式识别与机器学习这本书,想请教你几个问题不知行不行。
问题是关于第三章的,在3.1.1中,根据ln p(t|w,β)=0的梯度求出normal equation的这个过程中,我实在是不知道这中间的计算过程是怎么样的,自己算了很多遍也推导不出normal equation,所以想向你请教这个推导的过程,谢谢!
如果方便的话,我们可以邮件交流,我的邮箱是teddylw1611616@hotmail.com
非常感谢!


梯度等于0得到的那个等式,右边第一项
sum(n=1..N){tn * φ(xn)T)
是矩阵ΦT * t的矩阵乘法展开式
第二项是 wT(ΦT * Φ)矩阵乘法的展开式
所以得到:
0 = ΦT * t - wT(ΦT * Φ)
从而:
Wml = (ΦT * Φ)^-1 * ΦT * t

1 楼 teddylw1611616 2011-09-06  
你好,我现在正在学习模式识别与机器学习这本书,想请教你几个问题不知行不行。
问题是关于第三章的,在3.1.1中,根据ln p(t|w,β)=0的梯度求出normal equation的这个过程中,我实在是不知道这中间的计算过程是怎么样的,自己算了很多遍也推导不出normal equation,所以想向你请教这个推导的过程,谢谢!
如果方便的话,我们可以邮件交流,我的邮箱是teddylw1611616@hotmail.com
非常感谢!

相关推荐

    斯坦福机器学习第2课线性回归matlab实现和测试代码及笔记

    线性回归模型通过找到最佳拟合直线来连接输入特征和输出目标,这个最佳拟合线由最小化误差平方和(也称为均方误差)来确定。线性回归模型可以表示为:\( y = wx + b \),其中\( y \)是预测值,\( x \)是输入特征,\...

    机器学习笔记 Bishop版PAML

    ### 机器学习笔记 Bishop版PAML #### 一、引言 在《模式识别与机器学习》(Pattern Recognition and Machine Learning, PRML)这本由Christopher M. Bishop撰写的著作中,作者系统地介绍了机器学习的基本理论和技术...

    机器学习笔记

    机器学习的应用十分广泛,包括但不限于自动驾驶汽车、语音识别、搜索引擎优化、基因组学分析等领域。随着大数据时代的到来,机器学习已成为解决复杂问题的关键技术之一。 ##### 1.3 监督学习 监督学习是机器学习的...

    机器学习技法原始讲义和课程笔记

    2. **第三讲**:可能涵盖了线性回归和逻辑回归,这是机器学习中最基础的两种模型。线性回归用于连续值预测,而逻辑回归则适用于二分类问题。 3. **第4讲**:可能深入到多元线性回归和正则化,解释如何防止过拟合,...

    Coursera机器学习笔记

    **扩展**: 在其他分类问题中,输出可以是多分类的情况,例如肿瘤的类型可以分为{良性, 第一类肿瘤, 第二类肿瘤, 第三类肿瘤},对应输出为{0, 1, 2, 3}。 ### 二、无监督学习 **定义**: 无监督学习是指机器学习算法...

    机器学习个人笔记完整版v4.02

    单变量线性回归是最简单的线性回归模型之一,它假设目标变量与自变量之间存在线性关系。模型通常表示为\( y = \theta_0 + \theta_1 x \),其中\( \theta_0 \)是截距项,\( \theta_1 \)是斜率项,\( x \)是输入特征,...

    斯坦福大学机器学习笔记(中文版)

    ### 斯坦福大学机器学习笔记(中文版)——核心知识点概述 #### 一、机器学习简介 **1.1 什么是机器学习?** 机器学习是计算机科学的一个分支,它研究如何让计算机从数据中自动“学习”并改进其性能。这种学习过程不...

    吴恩达机器学习课程笔记

    ### 吴恩达机器学习课程笔记关键知识点综述 #### 一、课程概述与目标 - **定义与意义**:机器学习(Machine Learning)是指计算机系统通过数据分析来自动改进其性能的技术。它作为人工智能的一个核心分支,使得...

    斯坦福机器学习笔记v4.21

    ### 斯坦福机器学习笔记v4.21 #### 一、引言(Introduction) ##### 1.1 欢迎 欢迎来到斯坦福大学的机器学习课程笔记。这是一份由黄海广同学整理的针对斯坦福大学2014年机器学习课程的个人笔记,版本为V4.21,最后...

    机器学习个人笔记完整版2.5_Kindle7寸(1)

    其中,单变量线性回归是机器学习中基础而重要的概念,通过模型表示、代价函数和梯度下降等方法,学习者可以理解线性回归的原理和应用。线性代数回顾部分涵盖了矩阵和向量的加法、标量乘法、矩阵向量乘法、矩阵乘法...

    吴恩达,机器学习笔记

    ### 吴恩达,机器学习笔记 #### 一、引言(第一周) ##### 1.1 什么是机器学习? 机器学习是计算机科学的一个分支,它使计算机能够在没有明确编程的情况下学习并改进其性能。本课程由斯坦福大学教授吴恩达讲授,...

    机器学习个人笔记完整版--博士学霸的学习笔记

    数学上,单变量线性回归模型可以表示为: \[ h_\theta(x) = \theta_0 + \theta_1 x \] 其中,\( h_\theta(x) \) 是假设函数,\( x \) 是输入特征,\( \theta_0 \) 和 \( \theta_1 \) 是模型参数。 ##### 2.2 代价...

    机器学习个人笔记完整版v4.21

    单变量线性回归是最简单的回归模型之一,它试图找到一条直线来拟合输入特征和输出结果之间的关系。假设函数\( h_\theta(x) = \theta_0 + \theta_1x \),其中\( x \)是输入特征,\( \theta_0 \)和\( \theta_1 \)是...

    机器学习基础资料

    3. **机器学习〔中文版〕**:这可能是吴恩达的《机器学习》中文版,这本书是机器学习的经典教材,详细介绍了各种算法和理论,包括感知机、神经网络、聚类、降维、异常检测、推荐系统等,并提供了大量的实例和练习题...

    机器学习 吴恩达 课堂笔记1

    本篇笔记主要涵盖了线性回归、逻辑回归以及神经网络的基础知识,同时也讨论了模型优化和评估的方法。 1. 线性回归: 线性回归是一种基本的预测模型,其假设函数采用线性形式。在矩阵表示中,假设函数为θTX,其中θ...

    《统计学习方法》python笔记

    在这些笔记中,你将看到如何使用Python的Numpy进行数值计算,Pandas进行数据处理,Matplotlib和Seaborn进行数据可视化,以及Scikit-learn进行机器学习模型的构建和评估。 3. **Jupyter Notebook介绍** Jupyter ...

    PRML读书笔记

    线性回归模型是机器学习中最基础的模型之一,用于通过线性关系来预测连续值。本章详细介绍了线性基函数模型、正则化方法、贝叶斯线性回归以及与核函数的关系等内容。正则化技术是防止模型过拟合的重要手段,贝叶斯...

Global site tag (gtag.js) - Google Analytics