`

机器学习建模的注意事项

 
阅读更多

本文来自于吴恩达的机器学习课程。

1.获得更多的训练实例-解决高方差

2.尝试减少特征的数量-解决高方差

3.尝试获得更多的特征-解决高偏差

4.尝试增加多项式特征-解决高偏差

5.尝试减少正则化程度λ-解决高偏差

6.尝试增加正则化程度λ-解决高方差

 

评估一个假设

1.对于线性回归模型,利用测试数据计算代价函数J

2.对于逻辑回归模型,利用测试数据计算代价函数J

3.对于逻辑回归模型,也可以计算误分类的比率

 

模型选择和交叉验证集

 

1.h0(x)=θ0+θ1x

2.h0(x)=θ0+θ1x+θ2x^2

3.h0(x)=θ0+θ1x+……+θ3x^3

……

10.h0(x)=θ0+θ1x+……+θ10x^10

 

使用60%的数据作为训练集,使用20%的数据作为交叉验证集,使用20%的数据作为测试集。

模型选择的方法:

1.使用训练集训练出10个模型

2.用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)

3.选取代价函数值最小的模型

4.用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

 判断偏差和方差

当算法表现不理想,要么是偏差大,要么是方差大。话句话说,要么是欠拟合,要么是过拟合。

训练集误差和交叉验证集误差近似时:偏差/欠拟合

交叉验证集误差远大于训练集误差时:方差/过拟合

 

正则化和偏差/方差

λ的选择通过是在0-10之前的呈现2倍关系的值,例如:0  0.01  0.02 0.04 0.08 0.16 0.32 0.64 1.28 2.56 5.12 10 共12个。

1.使用选链集训练处12个不同程度正则化的模型。

2.用12个模型分别对交叉验证集计算得出交叉验证误差

3.选择得出交叉验证误差最小的模型

4.运用步骤3中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上。

当λ较小的时候,训练集误差较小(过拟合)而交叉验证误差较大。

随着λ的增加,训训练集误差不断增加(欠拟合),而交叉验证集误差则是减小后增加

 

 

当研究学习问题时,最佳的实践是:

1.先用最简单的模型实现,不管有多少错误。用交叉验证数据验证模型。

2.观察训练集和交叉验证集的学习曲线,来找出高方差和高偏差问题,或者别的问题。这样分析完以后再觉得用更多的样例或加入更多的特征。

3.实现完模型,分析错误样例,从错误样例中找到新的线索来优化模型。

 

查准率 (Precision)和 查全率 (Recall)

1. 正确肯定 (True Positive,TP):预测为真 ,实际为真

2. 正确否定 (True Negative,TN):预测为假 ,实际假 

3. 错误肯定 (False Positive,FP):预测为真,实际假 

4. 错误否定 (False Negative,FN):预测为假,实际真 

 

查准率 =TP/(TP+FP)。例,在所有我们预测有恶性肿瘤的病人中,实际上恶性肿瘤的病人的百分比越高越好。

查全率 =TP/(TP+FN)。例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

 

 

分享到:
评论

相关推荐

    数合建模-机器学习部分培训资料

    总的来说,本培训资料详细介绍了机器学习的基本概念、常用算法及其应用场景,同时也强调了实际操作中对数据处理和模型构建的注意事项。通过这些知识,学员能够理解和应用机器学习技术解决实际问题,如糖尿病预测和...

    吴恩达机器学习

    - **注意事项**:选择合适的学习率很重要,过大可能导致不收敛,过小则收敛速度慢。 ##### 2.7 梯度下降的线性回归 - **应用**:将梯度下降算法应用于线性回归问题,通过迭代更新参数来最小化代价函数。 - **实现...

    机器学习和数据挖掘的综述资料

    这个综述可能详细分析了这些策略的特点、适用场景以及实际应用中的注意事项。 9. **Machine Learning for Sequential Data A Review.pdf**:序列数据的学习涉及到时间序列分析、序列建模,如HMM(隐马尔可夫模型)...

    DPC用户指南-机器学习平台1

    此外,还有警告和注意事项来指导用户避免可能的问题,例如重置或重启操作可能带来的影响。 - **多级菜单**:如“设置 > 网络 > 设置网络类型”展示了如何通过菜单导航。 - **命令行操作**:例如`cd /d C:/...

    项目九 认识机器学习-任务5梳理机器学习的流程.pptx

    - **注意事项**:模型训练不仅仅是技术活,还需要考虑数据质量和特征的重要性,这些因素往往比训练过程本身更加关键。 ##### 5. 模型测试 - **测试集**:使用之前保留的测试集来评估模型的泛化能力,确保其能够在...

    斯坦福大学机器学习笔记(中文版)

    ### 斯坦福大学机器学习笔记(中文版)——核心知识点概述 #### 一、机器学习简介 **1.1 什么是机器学习?** 机器学习是计算机科学的一个分支,它研究如何让计算机从数据中自动“学习”并改进其性能。这种学习过程不...

    前滴滴-Bean-机器学习特征编码实战.pdf

    在机器学习过程中,通常遵循六个基本步骤:业务理解、数据理解、数据准备、建模阶段、评估阶段和部署阶段。业务理解阶段涉及对业务领域的深入理解,包括业务逻辑和特点。数据理解阶段则需要检查、清洗和统计分析数据...

    阿里云 专有云企业版 V3.7.0 机器学习PAI 用户指南 20201217.pdf

    该指南包含了对机器学习PAI的各项功能、操作流程和注意事项的详细解释,旨在帮助用户更好地理解和应用这一强大的机器学习工具。 1. **法律声明**:在使用这份用户指南前,用户需了解并遵守一系列法律条款。这包括...

    阿里云 专有云企业版 V3.8.0 机器学习 技术白皮书 20190621.pdf

    6. **技术约定与使用指南**:文档中还包含了通用的技术约定和使用提示,如警告和注意事项,以帮助用户正确理解和操作机器学习平台。 总体而言,阿里云专有云企业版V3.8.0的机器学习技术白皮书为企业提供了全面的...

    司守奎数学建模算法课件(2版含源程序).rar数学建模

    6. **论文写作与竞赛指导**:对于参与数学建模竞赛的学生,课件可能还包含了如何撰写模型报告和论文的技巧,以及竞赛策略和注意事项,帮助学生提高竞争力。 7. **评估与优化**:建模结果的评估和模型的改进是建模...

    掌握机器学习基础知识:从理论到应用的入门指南

    内容概要:本文提供了机器学习的概念概述以及各种主要...使用注意事项:虽然文中提及的许多知识点较为简要,但对于初次接触的人来说仍不失深度和实用性,在实践中应进一步深化对每部分知识的理解并探索更多高级概念。

    阿里云 专有云企业版 V3.9.0 机器学习PAI 产品简介 20191017.pdf

    机器学习PAI是阿里云提供的一种全面的机器学习服务,它集成了多种算法,支持数据预处理、特征工程、模型训练和评估等流程,旨在降低机器学习的门槛,让非专业人员也能轻松进行数据分析和建模工作。此外,它还提供了...

    数学建模优秀论文集打包下载

    在论文集中,可能介绍了一些常见的建模方法,如优化模型、模拟模型、预测模型等,以及在建模过程中可能遇到的技巧和注意事项。 3. 实际应用案例分析:数学建模的真正价值在于能够解决实际问题。论文集中可能包含了...

    机器学习-sklearn-项目学习大全

    ### 机器学习-sklearn-项目学习大全 #### 一、sklearn概述与安装 **1.1 sklearn是什么?** scikit-learn(简称sklearn),是基于Python的一个免费软件机器学习库,它提供了简单而有效的工具来进行数据预处理、...

    2016东北大学数学建模竞赛试题

    2016年东北大学数学建模竞赛试题的知识点涵盖数学建模...8. 注意事项:竞赛过程中要注意遵守规定的时间、提交格式、提交邮箱等要求,并了解竞赛组织方提供的官方通知以及官方QQ群等信息渠道,以便及时沟通与解决问题。

    数学建模数据集用户贷款数据集

    以上知识点涉及了数学建模、数据集特征与应用、数据集的提取与隐私保护、数据集格式与处理、数学建模中数据分析技术、数学建模竞赛、技术工具选择以及注意事项等方面,为理解和应用用户贷款数据集在数学建模中的相关...

    matlab开发-机械学习成形金属

    - `Read Me Instructions - Machine Learning Mining Industry.docx`:这可能是项目指南,详细介绍了如何使用提供的数据和代码进行机器学习实践,可能包含步骤解释、注意事项和预期结果。 - `license.txt`:这是...

    09年数学建模B题评分标准

    - **示例**:采用机器学习的方法预测交通流量变化趋势,而非传统的统计学方法。 - **注意事项**:在展示创新点的同时,也要确保方法的可行性,不能仅停留在理论上。 #### 3. 模型的正确性和有效性 - **示例**:...

    基于机器学习的汽车行驶工况识别内含数据集和完整代码.zip

    1. **README.md**:这是一个Markdown格式的文件,通常用于提供项目的简介、使用指南和注意事项。在这个项目中,它可能包含了数据集的来源、数据预处理的方法、使用的模型介绍以及代码运行步骤等关键信息。通过阅读此...

    阿里云 专有云企业版 V3.7.1 机器学习 产品简介 20190124.pdf

    - 阿里云专有云企业版的机器学习产品提供了全面的数据处理、建模和预测功能,支持大规模数据训练,可应用于各种场景,如金融风控、推荐系统、智能客服等。 - 版本V3.7.1可能包含了性能优化、新特性和稳定性增强,...

Global site tag (gtag.js) - Google Analytics