`

浅谈Feature Scaling

 
阅读更多

定义:Feature scaling is a method used to standardize the range of independent variables or features of data. In data processing, it is also known as data normalization and is generally performed during the data preprocessing step.(来源于wikipedia)


简单来说,它主要用来把所有特征值范围映射至同样的范围里面如(0,1)、(-1,1)、(-0.5,0.5)等。


 

Feature scaling (数据规范化) 是数据挖掘或机器学习常用到的步骤,这个步骤有时对算法的效率和准确率都会产生巨大的影响。

 

对精度的影响:很明显,这个步骤的必要性要依赖于 数据特征的特性,如果有>=2特征,并且不同特征间的值变化范围差异大,那就很有必要使用Feature scaling。比如说,在信用卡欺诈检测中,如果我们只使用用户的收入作为学习特征,那就没有必要做这个步骤。但是如果我们同时使用用户的收入和用户年 龄两个特征的话,在建模之前采用这个步骤就很有可能能提高检测精度,这是因为用户收入这个特征的取值范围可能为[50000,60000]甚至更大,但用 户年龄只可能是[20,100]左右,这时候,假如说我用K最近邻的方法去做检测的话,用户收入这个特征的相似度对检测结果的影响将会大大大于用户年龄的 作用,然而事实上,这两个特征对欺诈检测可能有着同等的重要性。因此,假如我们在检测实施前,对着两个特征进行规范化,那我们的检测方法中就能真正地同等 对待它们。


对效率的影响:再举一个例子,该例子来源于Ng教授的ML课程,



例子如上图,在该例子中,我们想用线性回归根据房屋的大小和房屋的卧室数量来预测房价,采用的优化方法为batch gradient descent。在建立模型的过程中,如果不对房屋的大小和房屋的卧室数量两个特征规范化,我们的优化问题将会在很skewed的区域中进行(如左图所 示),这样会使得batch gradient descent的收敛很慢。而当我们对其进行规范化之后,问题就会转变为偏圆形的空间中优化,这时候,batch gradient descent的收敛速度将会得到大幅度提高。

 

实践:

常用的Feature scaling方法有如下几种:

xi' = (xi - a) / b;

其中a可以为特征xi的均值,b则可以为xi的最大值、(最大值 - 最小值)、标准差等。

 

总结

该步骤的原理和方法都是很简单的,但是如果数据挖掘或机器学习中少了这一步,有时候会对学习效率和准确度产生巨大影响,因此,在学习建模之前,要认真考虑是否进行Feature scaling


参考至:http://blog.csdn.net/memray/article/details/9023737

http://en.wikipedia.org/wiki/Feature_scaling

https://class.coursera.org/ml/

如有错误,欢迎指正

邮箱:czmcj@163.com

分享到:
评论

相关推荐

    Auto Scaling

    Auto Scaling是亚马逊推出的弹性计算云(Amazon EC2)的一项Web服务,它能够根据用户设定的策略自动调整EC2实例的运行数量,以适应应用的负载变化。这项服务有助于维持应用的高可用性和扩展性,确保应用能够根据实际...

    AWS auto scaling uer guide 中文版

    Auto Scaling 可帮助确保您拥有适量的 Amazon EC2 实例来处理您的应用程序负载。您可创建 EC2 实例的 集合,称为 Auto Scaling 组 。您可以指定每个 Auto Scaling 组中最少的实例数量,Auto Scaling 会确保您的 组中...

    Feature Engineering for Machine Learning

    Frequency-based filtering and feature scaling for eliminating uninformative features Encoding techniques of categorical variables, including feature hashing and bin-counting Model-based feature ...

    SAR成像的chirp scaling算法

    SAR成像中,chirp scaling是一种非常重要的算法。

    利用 Auto Scaling 实现 弹性高可用.pdf

    在本实验中,我们将探讨如何利用Amazon Web Services (AWS) 的Elastic Load Balancing (ELB) 和 Auto Scaling 功能来构建一个弹性且高可用的基础设施。这两个服务是云架构的关键组成部分,它们确保了应用程序在面对...

    Scaling Big Data with Hadoop and Solr

    Scaling Big Data with Hadoop and Solr is a step-by-step guide that helps you build high performance enterprise search engines while scaling data. Starting with the basics of Apache Hadoop and Solr, ...

    Hckers.Guide.Scaling.Python

    Hckers.Guide.Scaling.Python Hckers.Guide.Scaling.Python Hckers.Guide.Scaling.Python

    Scaling Software Agility

    Scaling Software Agility

    Scaling MongoDB.pdf

    《Scaling MongoDB》一书由Kristina Chodorow撰写,详细介绍了MongoDB如何在分布式环境中进行扩展,以支持大规模数据集和高并发访问。本书涵盖了从理论到实践的各个方面,为读者提供了深入理解MongoDB扩展机制的基础...

    Data Algorithms Recipes for Scaling Up with Hadoop and Spark epub

    Data Algorithms Recipes for Scaling Up with Hadoop and Spark 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除

    Power scaling for cognitive radio.pdf

    ### Power Scaling for Cognitive Radio #### Introduction The paper "Power Scaling for Cognitive Radio" discusses the concept of using cognitive radios to utilize locally unused spectrum for their own...

    Scaling-Instagram.pdf

    在《Scaling Instagram》这份由Mike Krieger(Instagram联合创始人)于2012年AirBnB技术讲座上分享的演讲中,他详细介绍了Instagram是如何从一个初创项目成长为拥有3000多万用户的应用程序,并在此过程中解决了哪些...

    How to use CPU frequency scaling

    - 编辑`/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor`文件,设置为所选策略。 ##### 4.6 加载内核模块 - 使用`/etc/modules-load.d/cpufreq.conf`配置文件添加所需的模块名称。 - 使用`update-...

    A Sharp Scaling图片无损放大软件

    A Sharp Scaling是一款图片无损放大软件,免费好用,无需破解。

    MadGoat SSAA and Resolution Scaling 1.3抗锯齿

    《MadGoat SSAA and Resolution Scaling 1.3:Unity中的高级抗锯齿与分辨率缩放技术》 在游戏开发领域,图像质量是吸引玩家的关键因素之一,而抗锯齿和分辨率缩放技术则直接关系到游戏画面的细腻度和流畅度。...

    Starting and Scaling DevOps in the Enterprise

    Starting and Scaling DevOps in the Enterprise,Starting and Scaling DevOps in the Enterprise

    Guide to Scaling Web Databases with MySQL Cluster

    This provides unique insight into the challenges of scaling web databases, which in turn has driven the development of MySQL Cluster, integrating key technologies to enable the scaling of rapidly ...

Global site tag (gtag.js) - Google Analytics