数据挖掘的一般步骤
从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。
步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。不是每件数据挖掘的工作都需要这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤(2)便可以省略。
步骤(3)数据规约、步骤(4)数据清理、步骤(5)数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而其中至少60%以上的精力和时间花在了数据预处理过程中。
本文节选自《New Internet:大数据挖掘》
谭磊著
电子工业出版社出版
相关推荐
在数据挖掘过程中,数据预处理是一个关键步骤,它通常包括数据清洗(去除噪声和不一致的数据)、数据转换(如归一化、标准化)和数据规约(减少数据维度,降低复杂性)。对于ARFF文件,这些操作都可以通过Weka或者...
它包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估以及知识表示等一系列步骤。数据清理旨在去除数据中的噪声和不一致性;数据集成则是将来自不同来源的数据整合到一起;数据选择关注于选取与分析...
在讨论数据挖掘的体系结构与运行过程时,书中强调了数据挖掘系统的一般结构,包括数据的预处理、模式发现以及知识的表达三个主要阶段。数据预处理阶段包括了数据清洗、数据集成、数据变换和数据规约等操作,目的是...
数据挖掘可行性研究报告是深入探讨如何在现实环境中实施数据挖掘项目的关键文档。这份报告全面地涵盖了数据挖掘的背景、现状、发展趋势、需求分析和技术分析等多个重要方面,为决策者提供了宝贵的指导。 1. 背景及...
网络数据挖掘通常包括四个步骤:一是明确业务目标,确保挖掘的方向性和实用性;二是数据准备,从网络资源中搜集和预处理数据,这一步骤至关重要,占据了大部分时间;三是数据挖掘,通过算法发现数据中的模式;四是...
数据预处理是数据挖掘的重要步骤,包括数据的集成、变换、维度规约、数值规约等任务。在数据挖掘过程中,数据预处理可以提高数据的质量和可靠性。 知识点4:聚类算法 聚类算法是一种常见的数据挖掘技术,它可以将...
数据挖掘是信息技术领域中一个关键的研究方向,它涉及到从海量数据中发现有价值的、未知的、可理解的模式和知识。本资源"数据挖掘导论 完整版"显然是对这一主题的深入探讨,旨在为学习者提供全面的理论基础和实践...
在数据挖掘过程中,我们通常会遇到以下几个关键步骤: 1. 数据预处理:这是数据挖掘流程的第一步,包括数据清洗(去除异常值、缺失值填充)、数据转换(如归一化、标准化)、数据集成(将来自不同源的数据整合)等...
数据挖掘通常包含预处理、模式发现和模式评估三个主要步骤。预处理阶段涉及数据清洗、数据集成、数据转换和数据规约,确保数据的质量和适合进行挖掘。在模式发现阶段,系统应用各种挖掘算法,如关联规则学习、分类、...
以下是数据分析数据挖掘过程的详细步骤: 1、定义挖掘目的:在开始任何数据挖掘项目之前,首先要明确挖掘的目标和预期结果。这涉及到理解业务需求,确定是要进行预测、分类、聚类还是其他类型的分析。 2、数据取样...
在进行数据挖掘之前,往往需要对原始数据进行预处理,包括数据清洗(去除噪声和不一致数据)、数据集成(合并来自不同源的数据)、数据转换(如规范化、离散化)以及数据规约(降低数据复杂性)等步骤。 三、数据...
数据挖掘的步骤包括了解应用领域、了解相关的知识和应用的目标、创建目标数据集、选择数据、数据预处理、数据挖掘、模式评估等。了解应用领域和相关的知识和应用的目标是指了解数据挖掘的目的和范围。创建目标数据集...
接下来,作者会详细介绍数据预处理的过程,这是数据挖掘中的关键步骤。预处理包括数据清洗、数据集成、数据转换和数据规约。数据清洗是为了消除噪声和不一致性,数据集成则是将来自不同源的数据融合,数据转换通常...
数据预处理是图像数据挖掘的另一个关键步骤。这包括图像增强、归一化和降噪等操作。图像增强可以增加数据的多样性,提高模型的泛化能力;归一化有助于减少计算中的数值波动,使模型更稳定;降噪则可以去除图像中的...
此外,还可能讨论了数据挖掘的基本步骤,如数据预处理、模型构建、评估和解释。 第二章可能侧重于数据预处理,这是数据挖掘过程中的关键步骤。这部分内容可能涵盖了数据清洗(处理缺失值、异常值和重复值)、数据...
数据挖掘不仅仅是统计分析,而是包含了预处理、模式发现、模式评估和知识表示等多个步骤。 2. **数据挖掘流程**: 数据挖掘通常遵循CRISP-DM(Cross-Industry Standard Process for Data Mining)流程,包括业务...
数据挖掘项目的实施步骤包括问题定义、数据收集、数据清洁、数据变换、模型建立、模型评估、模型部署等步骤。数据挖掘项目的实施需要对业务问题的深入理解和模型适用条件深刻的认识。 在数据挖掘项目中,算法、挖掘...
4. **数据挖掘过程中的步骤** - 数据挖掘可以被视为知识发现的过程。这个过程通常包括以下步骤: - **数据预处理**:清洗数据、填充缺失值、消除噪声等。 - **数据集成**:将来自不同来源的数据合并到一起。 - ...