一、统计学概要
1、研究X与Y之间的关系,最理想的是找到一个映射,使得Y=f(X),但是实际当中很难找到,也就是搞不清楚X与Y之间到底是什么定量的关系,宏观上表现出来的就是结果的不确定性。尽管,每一次输入X时,得到什么Y是不确定的,但是当重复次数足够多时,出现某个结果的可能性可以计算出来的,研究这种微观的不确定,但是宏观上是确定的学科就是统计学。
2、大数定律: 实验次数足够多时可以用频率代替概率
3、中心极限定理 多个相互独立的随机因素来共同影响一个结果时,结果一般遵守正态分布;正态分布是二项分布的极限情况;
设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。
4、样本(整体是一个随机变量,会得到样本概率):观察n次,每次观察的结果都是一个随机变量,这n个随机变量独立、同分布,这n个随机变量合在一起叫做 样本X=(X1, X2, X3...) 样本整体的分布是每个分布的乘积
5、最大似然估计:点估计的一种,其基本想法是能取到的样本值肯定是概率大的,所以能使整个的概率最大的参数xita,就是参数的估计值。也就是样本固定,让theta变化,取出哪个theata让整个似然函数取到极值,就认为是那个参数。这个值与样本值有关系。求解时可以先取对数,再求导数=0
6、回归分析:分析变量之间的关系。确定性:函数关系 不确定性:变量是随机变量,用均值作为参考点
通过点图大概估计形式,之后因为样本值符合正态分布,进而整体的联合分布是确定的,进而极大似然函数确定,进而可以求出参数
7、估计的评价(使用哪个估计量为结果比较靠谱?):无偏、有效、相合性
二、基本概念
1、人工智能:让机器像人一样聪明。人工智能发展历史:机器能够推理(符号化和逻辑)、机器需要知识来支撑推理(专家系统)、自动化的获得知识(机器学习)。
2、机器学习:人工智能的一个分支,主要是让机器学会总结经验(没有办法去创造或“顿悟”,仅仅是归纳)。其输入是训练数据,输出是X、Y的联合分布或者是X、Y之间的映射关系。机器能处理问题不是因为程序员书写了程序,而是因为机器自己可以学习知识,即程序里的算法是机器自己学习到的。
机器学习的发展历史:类似于决策树的符号系统(模拟人类对概念的判断)、类似于神经网络的连接系统(最主要的问题是调整参数,整个思考的过程是黑箱)、统计学习(支持向量机 核方法)、深度学习(自动找到和描述特征)
深度学习的缺点:缺乏理论,需要调参的技巧,需要极大的数据和计算能力,但是容易入门和学习
3、解决的问题:
1》分类问题(结果是有限的可能) 如 是否垃圾邮件、股票是否涨、图片里是狗、猫、还是人?
常用算法:逻辑回归(工业界最常用),支持向量机,随机森林,朴素贝叶斯(NLP中常用),深度神经网络(视频、图片、语音等多媒体数据中使用)。
2》回归问题(结果有无限个可能)如 北京2个月后的房价
常用算法:线性回归,普通最小二乘回归(Ordinary Least Squares Regression),逐步回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)
3》聚类问题(找到相似的数据) 如 用户群体划分 也叫无监督学习
常用算法:K均值(K-means),基于密度聚类,LDA
4、三要素
模型(model):输入、输出的联合分布律或对应的函数族(带有需要确定的参数)
策略(strategy):模型评价的准则
算法(algorithm):根据策略,确定模型的算法
损失函数:预测值与真实值之间的差异
风险函数:损失函数的期望,当样本足够多时,可以用经验风险来替代(极大似然估计)
经验风险:对训练集误差的期望
常见的策略:经验风险最小化(极大似然估计)、
结构风险:(structural risk minimization SRM)添加一个惩罚项 J(f)
5、泛化能力:预测新数据时的准确程度
过拟合:预测的参数比真实的还多(太多的细节反而不是总体的规律),也就是归纳的层次太低(过拟合一定有,关键是怎么减少)
处理方法:在经验风险之外添加一个惩罚项
相关推荐
机器学习期末复习试卷 ...机器学习期末复习试卷涵盖了机器学习的基本概念、机器学习算法、模型评估方法、模型选择标准、应用实践等知识点。通过掌握这些知识点,可以更好地理解和应用机器学习技术。
通过阅读源码,可以学习到如何运用机器学习库解决实际问题,而笔记则能帮助系统梳理学习路径,提升学习效率。 总的来说,这份压缩包是机器学习学习者的宝贵资源,它提供了一条从理论到实践的桥梁,有助于提高学习者...
机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。机器学习的过程或思路包括获取数据、数据预处理、特征提取、特征选择、推理预测识别...
本文将对量子机器学习算法进行总结和梳理,首先介绍了量子计算和机器学习的基本概念,然后从四个方面分别介绍了量子机器学习算法,分别是量子无监督聚类算法、量子有监督分类算法、量子降维算法、量子深度学习。...
### Spark2.1机器学习知识点概述 #### 一、机器学习的基本概念 机器学习作为人工智能的一个分支,专注于让计算机能够从数据中学习规律,并利用这些规律进行预测或决策。其核心在于“算法”、“经验”与“性能”。...
斯坦福大学2014年的机器学习课程是机器学习领域里极具影响力的课程之一,本课程内容广泛覆盖了机器学习、数据挖掘、统计模式识别等相关主题。以下是对该课程的个人笔记中涉及知识点的详细解读。 机器学习是人工智能...
山东大学2020年1月的机器学习期末考试题目整理涉及了该课程的核心知识点和考试重点,涵盖了判断题、简答题和大题,且对不同类型的题型都进行了详细的要求和说明。通过对这些题目的回顾,我们可以从中挖掘出机器学习...
机器学习是人工智能的一个重要分支,它使得计算机能够在没有明确编程指令的情况下,通过学习得到知识,并应用这些知识来完成特定的任务。本课程由吴恩达教授在斯坦福大学授课,并通过Coursera平台开放给全球学习者,...
### 机器学习基础知识详解 #### 一、学习方法概述 机器学习主要分为监督学习、无监督学习、半监督学习和强化学习四大类。本部分主要介绍监督学习与无监督学习中的几种常见方法。 ##### 二分类 二分类是机器学习中...
根据给定的内容,我们可以梳理出以下知识点,将它们归类并详细阐述: 标题:Spark机器学习案例实战 1. Spark简介 Apache Spark是一个开源的大...通过这些知识点的学习,可以对Spark机器学习实践有一个全面的了解。
机器学习是人工智能领域的核心技术之一,其研究如何通过计算机来模拟人类的学习过程,从而让机器能够自我提升性能。在吴恩达老师的机器学习课程中,涵盖了线性回归、逻辑回归、支持向量机、聚类、降维、异常检测以及...
1. **基础理论**:理解概率论、统计学、线性代数和微积分等数学基础知识,这些都是构建和理解机器学习模型的基础。 2. **模型选择**:包括线性回归、逻辑回归、支持向量机、决策树、随机森林、梯度提升等经典算法,...
这些知识点构成了机器学习课程的核心框架,每一部分都非常重要。通过学习这些内容,学生能够建立起扎实的机器学习基础,并能够应对各种机器学习问题。吴恩达教授的课程不仅仅局限于理论知识的讲解,还会涉及到实践...
北京邮电大学同学整理的这篇文档,梳理了机器学习中常见算法的核心思想,以下是这些算法的知识点概述: 朴素贝叶斯算法: 朴素贝叶斯算法是基于贝叶斯定理以及特征条件独立假设的一种简单概率分类方法。它简单、...
1. Scikit-learn:这是一个广泛使用的Python库,提供了各种机器学习算法,包括监督和无监督学习,以及预处理和评估工具。 2. TensorFlow和PyTorch:这两个深度学习框架分别由Google和Facebook开发,支持构建复杂的...
《吴恩达机器学习笔记》是一份详尽的教育资源,旨在帮助学习者深入理解机器学习这一领域的核心概念和算法。吴恩达,作为人工智能和在线教育领域的先驱,以其深入浅出的教学风格闻名,他的机器学习课程在全球范围内广...
机器学习算法是人工智能领域的重要分支,它通过模拟人类的学习过程来提升机器的性能。机器学习算法可以分为有监督学习、无监督学习和强化学习三...而这张机器学习算法地图,无疑是帮助学习者梳理和巩固知识的良好工具。