=============第二章:数据预处理*********第二节:描述性统计概述=================
-
Measuring the Central Tendency
- 算数平均 arithmetic mean / 加权平均 weighted arithmetic mean:对过大过小值敏感,属于algebraic measure
- 裁剪后平均 trimmed mean:去掉一定比例的过值后进行平均,属于algebraic measure
- 中位数 median:适用于非对称分布数据,属于holistic measure,可以通过分组近似估算中间组的中位数。
- 众数 mode:可以根据含有众数的多少把数据分为 - 无峰值数据no mode,单峰值数据unimodal和多峰值数据multimodal,分布曲线平稳的单峰值数据的众数可以通过经验公式mean-mode = 3*(mean-median)来计算,属于algebraic measure
- unimodal数据为均匀分布时mean=median=mode,为正倾斜分布(较小值出现的频率高)时mean>median>mode,为负倾斜分布(较大值出现的频率高)时mean<median<mode
- 中列数 midrange:最大最小值求平均,属于algebraic measure
-
Measuring the Dispersion of Data
- 范围 range:最大值减最小值
- 百分位数 kth percentile:median相当于 50th percentile,常用的还有Q1 - first quartiles 和 Q3 - third quartiles
- 内距 IQR - interquartile range:Q3-Q1,属于holistic measure,通常1.5倍IQR以外的值可以被认为是outliers
- 五数概括法 five-number summary:Minimum; Q1; Median; Q3; Maximum
- 箱线图 Boxplots:大数据情况下暂时没有好的近似算法
- 方差 Variance / 标准差 Standard Deviation:当把mean作为数据的中心时,标准差可用来计算数据的离散程度,属于algebraic measure
-
Graphic Displays of Basic Descriptive Data Summaries
- 直方图 frequency histograms:适用于单变量
- 分位图 quantile plot:按0.5/n为偏移量,1/n为步长画出n个点的值
- QQ图 quantile-quantile plot:2个quantile plot进行对比,点数取少的那个,某一个系列quantile值映射到x坐标
- 散点图 scatter plot; 用来看2个属性之间的关联性
- 局部回归光滑拟合曲线 loess curve:a(阿发)参数为平滑系数,越大越平滑,但数据失真大,一般取0.25到1之间的值;l(仁达)参数为曲线多项式的次数,通常为1(线性)或者2(2次曲线)
======对数据进行描述性统计可以提供整个数据的概览,方便鉴别数据噪声和过值,为数据清洗做准备========
=============第二章:数据预处理*********第三节:数据清洗=================
-
Missing Values
- 直接忽略 Ignore the tuple:通常用在分类算法时记录的某个类别的属性缺失,当缺失数据占比较大时肯定是不可取的做法
- 手工补录数据 Fill in the missing value manually:oom
- 全部用一个常量代替 Use a global constant to fill in the missing value:常用的常量是UNKNOWN,不是办法的办法。
- 用在整体样本上该缺失属性的均值代替 Use the attribute mean to fill in the missing value:
- 用在同类别样本上该缺失属性的均值代替 Use the attribute mean for all samples belonging to the same class as the given tuple:前提是已经有一个已经明确分好的类别,并且假设这个缺失属性和该类别强相关
- 用样本空间里的记录的其他属性推断出该缺失属性的值 Use the most probable value to fill in the missing value:最常用或者相对比较合理的清洗方式,采用的推断方式一般是回归分析,决策树和贝叶斯推断
====== ========
相关推荐
Not only does the third of edition of Data Mining: Concepts and Techniques continue the tradition of equipping you with an understanding and application of the theory and practice of discovering ...
數據挖掘:概念與技術(原書第三版英文版)
数据挖掘是信息技术领域的一个关键分支,它涉及到从大型数据集中发现有价值的信息和知识。《数据挖掘概念与技术第三版》是一本深入探讨这一主题的重要教材,由Jiawei Han、Micheline Kamber和Jimmy Lin共同撰写。...
Data Mining - Concepts and Techniques Third Edition Jiawei Han University of Illinois at Urbana–Champaign Micheline Kamber Jian Pei Simon Fraser University
韩家炜的《数据挖掘:概念与技术》是数据挖掘方面学习的入门经典,但中文版的翻译较差,难于理解作者本义。 网上已有的英文原版资源要么是第二版,要么是第三版的整理版,现特别奉献原书第二版与第三版的高清PDF版本...
《Data Mining: Concepts and Techniques》(数据挖掘:概念与技术)这本书是数据挖掘领域内的一本经典教材,由Jiawei Han,Micheline Kamber和Jian Pei三位专家撰写,目前已经更新到第三版。这本书不仅适合学术研究...
根据提供的文件信息,“Data Mining Concepts and Techniques.pdf”,我们可以深入探讨数据挖掘的基本概念、技术以及系统架构等内容。下面将对文档中的关键知识点进行详细解析。 ### 数据挖掘基础 #### 为什么需要...
2. 数据预处理 在数据挖掘之前,数据通常需要进行预处理,包括数据清洗(去除噪声和不一致性)、数据集成(合并来自不同源的数据)、数据转换(如标准化、归一化)以及数据规约(降低数据复杂性,如抽样和特征选择)...
2. **数据预处理**:详细讨论了数据清洗、数据集成、数据变换和数据归约等预处理步骤的重要性及具体方法,为后续的数据分析打下坚实的基础。 3. **频繁模式挖掘**:探讨了关联规则学习、序列模式发现和子图模式挖掘...
《数据挖掘:概念与技术》是韩家炜教授的经典之作,该书的第三版深入浅出地阐述了数据挖掘这一领域的核心概念和技术。韩家炜,作为数据挖掘领域的权威专家,他的著作对于学习和理解这一领域具有极高的价值。...
Data Mining: Concepts and Techniques (3rd ed.) Jiawei Han, Micheline Kamber, and Jian PeiUniversity of Illinois at Urbana-Champaign &Simon; Fraser University©2013 Han, Kamber & Pei.
数据挖掘概念与技术 pdf part1 解压密码:DataMining 用7z压缩,不清楚别的方式能不能打开 打不开的请: 7-Zip 官方首页/7z下载 http://www.7-zip.org/ 中文首页 http://7z.sparanoid.com/
《数据挖掘:概念与技术》是一本深入探讨数据挖掘领域的经典著作。这本书全面阐述了数据挖掘的基本概念、方法和技术,是IT行业中数据科学领域的重要参考资料。数据挖掘是信息技术中的一个关键分支,它涉及从海量数据...
Data Mining Concepts And technology 3End Data Mining Concepts And technology 3End Data Mining Concepts And technology 3End Data Mining Concepts And technology 3End Data Mining Concepts And technology ...
经典著作的最新版,识货的来下!