`

数据挖掘导论学习笔记(2)----- 数据(1)

 
阅读更多

数据类型

1.属性与度量

属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。

测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)

属性类型:我们可以定义四种属性类型,标称(nominal),序数(ordinal),区间(interval),比率(ratio)。

 

 

数据质量

注重理解和提高数据质量,将改进分析结果的质量。
通常的数据质量问题:存在噪声和利群点、数据遗漏、不一致和重复、数据有偏差。

 

数据更适合数据挖掘的预处理步骤:处理使之更适合于分析,目的(1)提高数据质量,2更好地适应特定的DW技术活工具(例如:连续值转离散值、数据集属性数目需减少)。

 

 

噪声:草绳是测量误差的随机部分。很多数据挖掘工作都关注鲁棒算法(robust algorithm),即在噪声干扰下也能产生可以接受的结果。

伪像(artifact ):数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹,数据的这种确定性失常常称为伪像

精度(precision):重复测量值之间的接近程度

偏倚(bias):测量值与被测量之间的系统的变差。

准确率(accuracy):被测量的测量值与实际值之间的接近度。

 

数据集

维度 (dimensionality):数据集中的对象具有的属性数目。分析高维度数据有时会陷入维灾难(curse of dimensionality)。因为如此,数据预处理一个重要动机就是减少维度,称为维归约(dimensionality reduction)

稀疏性(sparsity):有些数据集,具有非对称特征的数据集,一个对象大部分属性上都为0;在很多情况下,非0项还不到1%,实际上,稀疏性是个有点,因为只有非零值才需要存储和处理。

分辨性(resolution):常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。例如在几米的分辨率下,地球表面可能很不平坦,但在数十公里的分辨率下却相对平坦。所以要做到分辨率适合。

事务数据或购物篮数据,数据矩阵,稀疏数据矩阵


基于图形的数据
(1)捕获数据对象之间的联系(即图形化表示)
(2)具有图形对象的数据。

 

分享到:
评论

相关推荐

    《数据挖掘概念与技术》-思维导图学习笔记,第一章。

    在这里,我们重点关注第一章的学习笔记,即"第一章导论"。 在数据挖掘的导论部分,通常会涵盖以下几个关键知识点: 1. 数据挖掘定义:数据挖掘是一种从大量数据中通过算法发现有价值信息的过程。它涉及到模式识别...

    大数据导论学习记录笔记

    大数据导论学习记录笔记 大数据导论学习记录笔记中涵盖了大数据的基本概念、技术属性、云计算、物联网、人工智能等相关知识点。 大数据的基本概念 * 数据类型:文本、图片、音频、视频 * 数据结构化程度:结构化...

    山东大学数据科学导论复习资料以及历年期末近4年真题回忆版

    考生应仔细阅读并理解其中列出的知识点,例如数据预处理、数据挖掘、机器学习算法(如线性回归、决策树、支持向量机等)、大数据处理技术(如Hadoop和Spark)以及数据可视化工具(如Python的Matplotlib和Seaborn库)...

    数据挖掘数据分析资料.zip

    首先,让我们详细探讨一下“6数据挖掘导论(完整版).Introduction.To.Data.Min.pdf”。这本书很可能涵盖数据挖掘的基本概念、方法和技术。数据挖掘是通过应用算法和统计模型,从大量数据中提取有用信息和知识的过程。...

    数据挖掘教学大纲.docx

    * Pang-Ning Tan著,范明等译,《数据挖掘导论》,人民邮电出版社,2006 * 王珊,《数据仓库技术与联机分析处理》,清华大学出版社,2002 * 安淑芝等,《数据仓库与数据挖掘》,清华大学出版社,2005

    谭浩强C语言学习笔记

    * 计算机科学技术的应用领域:人工智能、数据挖掘、网络安全 六、微机原理及接口技术 * 微处理器的结构和工作原理 * 微处理器的类型:8位、16位、32位、64位 * 微处理器的接口技术:总线、寄存器、I/O端口 七、...

    《新编计算机导论》读书笔记模板.pptx

    《新编计算机导论》读书笔记模板.pptx ...《新编计算机导论》读书笔记模板.pptx是一本系统化的计算机导论教材,旨在为计算机专业学生提供全面的知识基础,帮助学生更好地学习和实践计算机学科的知识。

    人工智能导论复习.doc

    本笔记涵盖了人工智能导论的主要知识点,包括人工智能的定义、技术路线、研究领域、知识表示、推理、搜索、机器学习、自然语言理解、专家系统、学习算法、数据挖掘和智能主体等。 一、人工智能的定义和技术路线 * ...

    assignment2

    通过本次实践任务(Assignment#2),学生将学习并应用C语言的基础知识来处理不同类型的数据结构。 #### 二、作业目标与要求 ##### 1. 虚拟机环境配置与软件安装 - **目标**: 学生需要登录到自己的虚拟机环境中,并...

    MOOC南京大学软件学院《数据科学基础》课程期末大作业

    《数据科学基础》是南京大学软件学院开设的一门重要课程,旨在为学生提供扎实的数据处理、分析和挖掘技能。这门课程的期末大作业通常会涵盖数据科学的主要领域,包括数据预处理、统计分析、机器学习和数据可视化等。...

    Intro To Data Mining

    - **课程名称**:数据挖掘导论(Introduction to Data Mining) - **讲师**:刘英教授,博士,毕业于美国西北大学计算机工程专业,研究方向包括数据挖掘、高性能计算等。 - **教学助理**:待定 - **联系方式**:...

    算法笔记

    - 数据挖掘:利用算法对大量数据进行分析,发现其中的模式和规律。 - 人工智能:通过机器学习算法训练模型,使计算机能够自动完成特定任务。 8. **算法优化技巧**: - 预处理:通过对输入数据进行预处理,减少...

    物联网导论第13章_物联网中的智能决策v1135.pptx

    在物联网中,智能决策不仅依赖于数据挖掘,还涉及到大数据处理、云计算、机器学习等技术。这些技术共同作用,帮助物联网系统实时分析来自各种传感器和其他设备的数据,作出快速而准确的决策。例如,智能交通系统可以...

    基本数据结构,排序算法,算法学习工具

    4. **GitHub资源**:许多开发者分享他们的代码实现和学习笔记,是学习的好去处。 在大数据分析和数据挖掘中,数据结构和排序算法的选择至关重要。例如,哈希表用于快速查找,树结构用于高效检索,而排序算法则在...

    MIT算法导论公开课之课程笔记 5.线性时间排序.rar

    理解并掌握这些线性时间排序算法,不仅能够提升编程能力,也能帮助解决实际问题,尤其是在数据分析、数据挖掘等领域。MIT算法导论公开课的这部分内容,深入浅出地讲解了这些概念,对于学习者来说是一份宝贵的资源。

    Introduction-of-Data-Science:资料科学导论

    4. Scikit-learn:这是Python中最流行的数据挖掘和机器学习库,提供了多种监督和无监督学习算法,如线性回归、逻辑回归、决策树、随机森林、支持向量机和聚类算法等。此外,它还包括模型选择和评估工具,便于我们在...

    data-science-workshop-2019

    数据科学包含大量主题,例如数据挖掘,数据整理,数据可视化,模式识别或机器学习。 该研讨会的目的是介绍使用Python和PyData生态系统的其中一些主题。 这不是一门关于深度学习的课程。 注意:此仓库中的物料是在...

    csdn july《机器学习10大算法系列》21.8.6

    Apriori是一种常用的关联规则挖掘算法,广泛应用于数据挖掘、机器学习等领域。该算法的主要思想是通过找到频繁项集来挖掘关联规则。Apriori的优点是可以处理高维空间中的数据,且具有良好的泛化能力。 机器学习十大...

    研究生班知识库(生物信息学和基因组学实用导论).zip

    7. 机器学习与数据挖掘:在生物大数据中应用这些算法来发现新的生物规律和模式。 【压缩包子文件的文件名称列表】"纵向毕业季.bmp"可能是一个图片文件,可能与毕业设计或项目展示有关,而"Bio720-master"很可能是一...

    清华大学—学堂在线—高级大数据系统课件笔记.zip

    这一部分可能涉及到数据存储、数据挖掘和数据分析的基础理论。 接着,"Linux 数据处理基础"深入讲解了在Linux环境下进行数据操作的技术和工具,如shell脚本、awk、sed等,以及如何通过Linux集群进行大规模数据处理...

Global site tag (gtag.js) - Google Analytics