模式识别(Pattern recognition)、机器学习(machine learning)和深度学习(deep learning)代表三种不同的思想流派。
模式识别是最古老的(作为一个术语而言,可以说是很过时的)。
机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。
深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考后深度学习时代。
1)机器学习就像是一个真正的冠军一样持续昂首而上;
2)模式识别一开始主要是作为机器学习的代名词;
3)模式识别正在慢慢没落和消亡;
4)深度学习是个崭新的和快速攀升的领域。
模式识别:智能程序的诞生
机器学习:从样本中学习的智能程序
深度学习:一统江湖的架构
一、机器学习的工作方式
①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据
②模型数据:使用训练数据来构建使用相关特征的模型
③验证模型:使用你的验证数据接入你的模型
④测试模型:使用你的测试数据检查被验证的模型的表现
⑤使用模型:使用完全训练好的模型在新数据上做预测
⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现
二、五大流派
①符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是:规则和决策树
②贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫
③联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,最喜欢的算法是:神经网络
④进化主义:生成变化,然后为特定目标获取其中最优的,最喜欢的算法是:遗传算法
⑤Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要离开道路),最喜欢的算法是:支持向量机
三、九种常见方法
1. 决策树(Decision Tree):在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠。
优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估
场景举例:基于规则的信用评估、赛马结果预测
2. 支持向量机(Support Vector Machine):基于超平面(hyperplane),支持向量机可以对数据群进行分类。
优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的
场景举例:新闻分类、手写识别。
3. 回归(Regression):回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。
优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显
场景举例:路面交通流量分析、邮件过滤
4. 朴素贝叶斯分类(Naive Bayes Classification):朴素贝叶斯分类器用于计算可能条件的分支概率。每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。
优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类
场景举例:情感分析、消费者分类
5. 隐马尔可夫模型(Hidden Markov model):显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。
优点:容许数据的变化性,适用于识别(recognition)和预测操作
场景举例:面部表情分析、气象预测
6. 随机森林(Random forest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险。
优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用
场景举例:用户流失分析、风险评估
7. 循环神经网络(Recurrent neural network):在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。
优点:循环神经网络在存在大量有序信息时具有预测能力
场景举例:图像分类与字幕添加、政治情感分析
8. 长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):早期的 RNN 形式是会存在损耗的。尽管这些早期循环神经网络只允许留存少量的早期信息,新近的长短期记忆(LSTM)与门控循环单元(GRU)神经网络都有长期与短期的记忆。换句话说,这些新近的 RNN 拥有更好的控制记忆的能力,允许保留早先的值或是当有必要处理很多系列步骤时重置这些值,这避免了「梯度衰减」或逐层传递的值的最终 degradation。LSTM 与 GRU 网络使得我们可以使用被称为「门(gate)」的记忆模块或结构来控制记忆,这种门可以在合适的时候传递或重置值。
优点:长短期记忆和门控循环单元神经网络具备与其它循环神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用
场景举例:自然语言处理、翻译
9. 卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。
优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的
场景举例:图像识别、文本转语音、药物发现
相关推荐
机器学习常见算法分类 在机器学习领域,算法众多,了解每种算法的特点和应用场景至关重要。根据学习方式和算法类似性,可以将机器学习算法分为几大类。 一、学习方式 机器学习的学习方式可以分为四类:监督式学习...
机器学习算法与应用.pdf 机器学习是人工智能的核心和基础,研究机器学习是实现人工智能的重要步骤。机器学习算法是机器学习的核心部分,它决定了机器学习的性能和效果。本文将从三个方面介绍机器学习算法:典型机器...
机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习算法项目机器学习...
使用机器学习算法自动进行音乐流派分类,例如逻辑回归和 K-最近邻 使用语言: Python 2.7 此存储库包含根据以下流派对音乐进行分类的开发代码: 蓝调 古典(西方) 国家 迪斯科 金属 流行音乐 数据集 用于...
机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习算法机器学习...
机器学习常见算法分类 机器学习是当前数据分析领域的一个热点容,许多人在平时的工作中都或多或少会用到机器学习的算法。根据学习方式和算法的类似性,我们可以将机器学习算法分类如下: 监督式学习 监督式学习是...
一篇吴恩达精彩的机器学习常见算法分类汇总大全,总结的很好。推荐给大家。
机器学习算法与神经网络机器学习算法与神经网络机器学习算法与神经网络 机器学习算法与神经网络机器学习算法与神经网络机器学习算法与神经网络 机器学习算法与神经网络机器学习算法与神经网络机器学习算法与神经网络...
### 遗传算法与机器学习:自然计算的精髓 #### 一、引言 遗传算法(Genetic Algorithms, GA)作为一种受自然界启发的优化技术,在机器学习领域扮演着极其重要的角色。它不仅为解决复杂问题提供了一种新颖的方法论...
机器学习基础算法
02-机器学习_(knn分类算法与应用) - 简化版 03-机器学习_(贝叶斯分类算法与应用) 04-机器学习_(kmeans聚类算法与应用) 05-机器学习_(协同过滤推荐算法与应用) 06-机器学习_(决策树分类算法与应用) 07-机器...
常见机器学习算法练习
本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,...
机器学习算法的数学解析与Python实现 机器学习算法是领域中的一个重要分支,它研究如何通过使用算法和模型来让计算机系统从数据中自动学习并改进自身的性能。机器学习可以看作是一种“经验学习”,它强调的是在不...
《机器学习十大算法》压缩包包含了十个在机器学习领域中广泛应用的算法的详细介绍,每份PDF文件分别对应一个算法。这些算法是机器学习初学者和专业研究者必备的基础知识,涵盖了监督学习、非监督学习以及关联规则...
强化学习是指通过与环境交互进行机器学习的一种方式。 机器学习算法被广泛应用于各个领域,包括数据挖掘、自然语言处理、医疗诊断、推荐系统和计算机视觉等。在数据挖掘领域,机器学习算法可对大规模数据进行处理和...