机器学习实际上是一个比较古老的领域。这些年突然火了起来,原因很可能是硬件的发展,网络以及数据的 爆发式增长,然后机器学习开始越来越实际,可以帮我们做很多事情。
本博客将记录我学习机器学习的过程以及一些理解。
首先选择的是吴恩达大师的课程《机器学习》,这是一门机器学习的入门课程,并不需要太多数学知识,也比较全面,个人比较推荐。
那么机器学习到底是什么鬼? 算法。还是一系列的算法,解决的是特定领域的算法。什么领域呢,机器学习要解决的问题,就是我们说的举一反三,或者是自动找出规律(模式)的问题。举个例子,给你说个地点,房屋的面积,那么你就大概可以估算出这个房子的价格。如果要使用程序来解答这样的问题,就可以算是一个机器学习的问题。
首先,我们需要给出一系列的数据,房子的位置,房屋面积,房间数量,楼层等等数据,并且给出这些房子的价格,通过已有的数据,来预测某一系列条件下,房屋的价格。这是所谓的监督学习。
其次,我们要选定对房价有影响的特征,这些特征例如房屋面积,房间数量,位置,楼层等等。这就是特征选择。
最后,我们要选择一个模型来描述房价。通过已有数据来看,是线性模型还是逻辑模型?亦或是神经网络等等。
如果我们把特征减少到房屋面积,那么我们得到的就是最简单的一个线性函数拟合的问题。可以看成是求解
y = a + bx 的问题,我们需要做的,就是寻找a, b 使得函数 y = a + bx 最大拟合我们的已知数据。
这里的y 可以看做是房价,a 是一个最低价格, b则是需要寻找的参数,x则是我们说的面积。
好了,这些基本可以用以下这幅图来说明问题。
Trainning Set就是我们的已知数据。用来训练的数据。
Learning Algorithm 则是选择的机器学习算法,当然这里还没给出。是用来寻早a,和b参数的。
h函数则是模型函数, 也就是我们的 y = a + bx 这个函数用来预测最终价格的。
那么我们这里最关心的就是,如何寻找 a, b参数呢?
请看下图,这里蓝色的直线,实际上正是我们的 函数 y = a + bx ,然而实际上,红色的叉是实际情况。
对于人来说,可能一步就能够划一条这样的蓝线最好的拟合红色的叉。如何让算法
找到这条蓝线呢?
我们还是从最原始的想法来,那就是蓝线尽可能多的穿过红色的叉。那么我们引入一个概念,
方差。
方差可以看做是实际红叉,与蓝线的实际差的平方。而我们要做的,就是尽量调整蓝线的a,b参数减少方差,最小的方差,自然就是我们要的蓝线。
Cost Function就是我们的方差累加,这里除以2*m,m表示的是训练数据的个数。
最终目的,是的Cost Funtion 最小化。
接下来我们就引入了梯度下降的算法。
这里出现的是 求导的符号。也就是对Cost Function求导。
求导后的公式。微积分好的同学可以自己推导,其实也很简单。
这里的theta 就是上面的a,b
这里容易误解的是,阿尔法是什么,这个可以叫学习速率。我们学得快,必然就可能找不到最优解,如果学得慢,好像没人想学得慢。 而阿尔法之后的公式,其实就是对 Cost Function的求导所得,也就是Cost Function的变化率,通过同时更新 参数 theta0, theta1, 我们可以收敛到一个最小值(虽然可能是局部优化)。
当然这些用于单个变量的线性回归问题,确实很简单,实际中可能涉及多变量,那么计算量是巨大的,我们也会遇到很多优化算法,但是大致的一个监督算法,线性回归就出来了。
梯度下降的形象图示。
机器学习的算法还有很多。从大的分类上来开,还有无监督算法,也就是分类算法。
当然如果遇到非连续的预测模型,那么就可能用逻辑回归。如果遇到更复杂的情况,神经网络也许可以用的上。
接下来,我们就要脑补一些知识了。上面提到的,求导,接下来还有矩阵,线性代数的知识, 还有当然就是概率论了。如果你不深入研究这些算法,那么跳过也是可以的。
相关推荐
【机器学习学习笔记-英文版】是一份详细阐述机器学习概念和算法的资料,由Jim Liang创作。本文档旨在帮助读者理解机器学习的基础、常用算法以及一些扩展话题。以下是笔记的主要内容: **Part 1: 基本概念** 1. **...
这些文档涵盖了斯坦福大学机器学习...这些笔记详细地阐述了机器学习的基本概念、模型和算法,是初学者理解并掌握机器学习核心概念的重要资源。通过深入学习和实践这些知识点,可以帮助读者建立坚实的机器学习基础。
斯坦福大学 2014 机器学习教程 个人笔记(V5.26) 课程概述 课程地址:https://www.coursera.org/course/ml Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的 知识或技能,重新...
### 机器学习概述 - 机器学习定义:机器学习是研究计算机如何通过模拟或实现人类学习的行为来获取新知识或技能,并改进已有的知识结构,以提高性能。 - 人工智能核心:机器学习是人工智能的核心部分,是赋予计算机...
机器学习基础概述-阿里巴巴技术联盟 -直接ppt.md,根据ppt改编的md笔记档,方便实用。
《麻省理工机器学习笔记》是一份专为初学者设计的教程,涵盖了机器学习领域的基础知识以及一系列重要算法,包括感知机和支持向量机等。这篇笔记深入浅出地讲解了机器学习的核心概念,旨在帮助读者建立起坚实的理论...
【机器学习笔记_机器学习】概述 机器学习是人工智能的一个重要分支,它研究计算机如何从经验中学习,以便在没有明确编程的情况下改进其性能。这个领域由统计学、计算机科学和神经科学等多个学科交叉而成,旨在使...
### 监督学习与无监督学习 #### 一、监督学习 ...以上是对吴恩达教授的Coursera机器学习课程笔记的主要知识点概览,这些内容涵盖了从基础概念到高级技术的广泛领域,为初学者提供了全面的学习路径。
### 机器学习基础知识详解 #### 一、学习方法概述 机器学习主要分为监督学习、无监督学习、半监督学习和强化学习四大类。本部分主要介绍监督学习与无监督学习中的几种常见方法。 ##### 二分类 二分类是机器学习中...
清华大学-学堂在线 大数据机器学习课件笔记系列:概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM...
### 机器学习笔记之回归方法详解 #### 一、引言 本文档是对斯坦福大学机器学习课程前四节的学习总结及深入理解。本部分主要关注回归问题——一种常见的有监督学习方法。回归方法旨在从有限的数据集中推导出一个数学...
课程笔记的组织结构清晰,包括各章节的介绍和内容概述,提供了机器学习算法的模型表示、代价函数的理解、梯度下降算法的直观解释等关键知识点。 黄海广在课程笔记中还对一些术语和变量进行了规范化,以及对页面进行...
《机器学习技法讲义与笔记》是台湾大学林轩田教授的课程资源,涵盖了机器学习的基础理论和实际应用。这份资料包含了一系列的讲义和笔记,以深入浅出的方式介绍了机器学习的核心概念和技术。 首先,从标题我们可以...
### 吴恩达-智能控制进阶-学习笔记-20190918 #### 深度学习概论 本章节介绍了深度学习的基础概念及其重要性。深度学习是一种机器学习技术,通过模拟人脑神经元工作原理来进行模式识别、分类和其他高级任务。 ####...
一、机器学习概述 机器学习是人工智能的一个分支,通过数据来让计算机学习,无需显式编程。它分为监督学习、无监督学习和半监督学习等类别,其中监督学习包括了如线性回归、逻辑回归、支持向量机、决策树、随机森林...
**Python机器学习笔记教程概述** Python作为一门编程语言,因其简洁明了的语法和丰富的库支持,已经成为数据科学和机器学习领域首选的工具之一。本教程以实践为导向,旨在帮助初学者和进阶者深入理解并掌握Python在...
《机器学习导论》干货笔记概述 机器学习是人工智能领域的一个重要分支,它涉及通过让计算机从数据中学习规律和模式来实现自动化预测和决策。本笔记深入探讨了监督学习和非监督学习这两种主要的学习方式,并从算法的...
### 机器学习基础知识与关键技术 #### 一、课程概述与背景 **《机器学习个人笔记完整版v5.24-A4打印版》** 是基于斯坦福大学2014年的机器学习课程所编写的个人笔记。这门课程由著名机器学习专家吴恩达教授主讲,是...
### 机器学习个人笔记完整版v5 知识点概览 #### 一、课程概述与背景 **课程目标:** - **理解机器学习的概念:** 探讨计算机如何模仿人类学习行为,获取新知识或技能,从而提高自身性能。 - **掌握核心技能:** ...