`
shuofenglxy
  • 浏览: 194597 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

ZZ 数据挖掘的方法论之谈CRISP-DM

 
阅读更多

 

from:http://kb.cnblogs.com/page/76804/

在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了CRISP-DM Special Interest Group(简称为SIG)。

  大概在1999年,SIG(CRISP-DM Special Interest Group)组织开发并提炼出CRISP-DM(CRoss-Industry Standard Process for Data Mining),同时在Mercedes-Benz和OHRA(保险领域)企业进行了大规模数据挖掘项目的实际试用。SIG还将CRISP-DM和商业数据挖掘工具集成起来。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。

  当前CRISP-DM提供了一个数据挖掘生命周期的全面评述。他包括项目的相应周期,他们的各自任务和这些任务的关系。在这个描述层,识别出所有关系是不可能的。所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣,最重要的还有数据。SIG 组织已经发布了CRISP-DM Version 1.0 Process Guide and User Manual的电子版,这个可以免费使用。


Figure: Phases of the CRISP-DM Process Model

  一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。上图中箭头指出了最重要的和依赖度高的阶段关系。

  上图的外圈象征数据挖掘自身的循环本质――在一个解决方案发布之后一个数据挖掘的过程才可以继续。在这个过程中得到的知识可以触发新的,经常是更聚焦的商业问题。后续的过程可以从前一个过程得到益处。

  业务理解 (Business Understanding)
  最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

  数据理解 (Data Understanding)
  数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。

  数据准备 (Data Preparation)
  数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

  建模(Modeling)
  在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

  评估(Evaluation)
  到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。

  部署 (Deployment)
  通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。

 

分享到:
评论

相关推荐

    CRISP-DM数据挖掘实施方法论

    CRISP-DM数据挖掘实施方法论 CRISP-DM数据挖掘实施方法论是帮助企业把注意力集中在解决业务问题本身,而不是技术层面上的一种方法论。该方法论的核心是 CRISP-DM 流程模型,涵盖了数据挖掘的整个过程,包括六个步骤...

    SPSS数据挖掘流程手册_CRISP-DM.pdf

    该手册涵盖了CRISP-DM方法论、参考模型、用户指导、报告书写及附录等全面内容,旨在为数据挖掘领域的从业者提供一套系统性的指导框架。 ### CRISP-DM方法论 CRISP-DM方法论是基于跨行业实践提炼出的一套结构化流程...

    CRISP-DM 1.0

    CRISP-DM自1996年构思以来,已经成为业界广泛接受的数据挖掘方法论。 #### 二、CRISP-DM 1.0背景与意义 在1990年代末期,数据挖掘技术正迅速发展成为商业领域的一个重要工具。随着市场的快速扩张和技术的不断进步...

    IBM SPSS Modeler CRISP-DM指南(中文).pdf

    DM指南(中文).pdf 官方中文帮助文档 实用权威”,以及标签“商业智能 BI 数据挖掘 机器学习 SPSS Modeler”,我们可以推断出该文档可能详细介绍了使用IBM SPSS Modeler进行数据分析和建模的CRISP-DM方法论。...

    CRISP-DM1.0循序渐进数据挖掘指南

    随着数据科学领域的发展,CRISP-DM因其全面性和实用性被公认为是最具影响力的数据挖掘方法论之一。 #### 二、CRISP-DM 的背景与目标 在数据挖掘项目中,经常会出现因为缺乏明确的过程指导而导致项目延期或者失败的...

    数据科学最常用流程CRISP-DM,终于有人讲明白了

    最常用的流程为“跨行业标准数据挖掘流程”(CrossIndustryStandardProcessforDataMining,CRISP-DM)。事实上,多年来,CRISP-DM一直稳居各种行业调查第一名。CRISP-DM的主要优势,也是它被广泛使用的原因,其关键...

    CRISP-DMManual.pdf

    CRISP-DM 数据挖掘过程模型指南 CRISP-DM 是一个通用的数据挖掘过程模型,由多个组织合作开发,旨在提供一个标准化的数据挖掘流程。该模型分为六个阶段:业务理解、数据理解、数据准备、建模、评估和部署。 业务...

    CRISP-DM指南

    CRISP-DM提供了一套系统的方法来指导数据挖掘项目的实施。通过遵循这些步骤,项目团队可以更有效地管理和完成项目,从而提高预测模型的准确性和可靠性。无论是初学者还是专业人士,掌握CRISP-DM流程对于确保数据挖掘...

    数据挖掘规范文档crisp中文版

    ### 数据挖掘规范文档CRISP-DM中文版解析 #### CRISP-DM概述 CRISP-DM,全称为“跨行业数据挖掘标准过程”,是数据挖掘领域内被广泛采纳的一个过程框架,旨在为数据挖掘项目提供一个标准化、系统化的管理流程。这...

    项目实战:SPSS Modeler数据挖掘项目实战培训-第03课:CRISP-DM详解 共11页.pptx

    本课程围绕CRISP-DM(Cross-Industry Standard Process for Data Mining)模型展开,该模型是数据挖掘项目中的通用流程标准,包含六个主要阶段:业务理解、数据理解、数据准备、建立模型、评价和实施。 1. 业务理解...

    py-crisp:跨行业数据挖掘标准流程(通常缩写为CRISP-DM)是一种数据挖掘流程模型,描述了数据挖掘专家用来解决问题的常用方法

    酥脆受CRISP-DM框架的启发,项目模板快速设置了CRISP-DM文件夹结构。 有关CRISP-DM的更多信息,请参见: 假定所有工作将主要在Anaconda上完成,因此请安装Anaconda。 否则,请设置您自己的requirements.txt文件。...

    数据挖掘原理与SPSS Clementine应用-数据挖掘的体系结构与模型

    本主题将深入探讨数据挖掘的体系结构以及两种主要的过程模型——Fayyad模型和CRISP-DM模型。 首先,我们要理解数据挖掘的体系结构。这通常包括数据预处理、数据挖掘、模式评估和知识表示四个主要阶段。数据预处理是...

    spss数据挖掘流程手册

    CRISP-DM不仅是一种方法论,更是一个参考模型,为不同行业、不同规模的数据挖掘项目提供了一套通用的框架。该模型强调迭代和反馈,鼓励在每个阶段之间灵活跳转,以适应项目的实际需求变化。 #### 用户指导 SPSS...

    数据挖掘方法论及案例介绍_华为

    在“数据挖掘方法论及案例介绍_华为”这个主题中,我们可以深入探讨以下几个关键知识点: 1. **数据挖掘流程**:通常包括业务理解、数据理解、数据准备、建模、评估和部署六个阶段。业务理解是理解项目目标,数据...

    数据挖掘流程模型

    为了规范数据挖掘的操作流程,提高数据挖掘项目的成功率,业界专家联合制定了CRISP-DM(Cross Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)模型。该模型旨在提供一套全面的数据挖掘方法论...

    9 数据挖掘数据挖掘方法论与工程化思考.docx

    数据挖掘的标准流程常常采用CRISP-DM(Cross-Industry Standard Process for Data Mining)模型,这是一个被广泛应用的跨行业数据挖掘标准流程。CRISP-DM包含六个阶段,分别是商业理解、数据理解、数据准备、建模、...

    跨行业数据挖掘流程白皮书

    **CRISP-DM**(Cross Industry Standard Process for Data Mining)是一种被广泛接受的数据挖掘项目管理方法论,旨在为数据挖掘项目提供一个标准化的工作流程。该方法论由来自不同行业的专家共同开发而成,包括NCR ...

Global site tag (gtag.js) - Google Analytics