一、数据挖掘是什么?
人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研
究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。
对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能,从而更好地对决策或科研工作提供支持。
正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(Data Mining)技术得到了长足的发展。
数据挖掘,也可以称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。
数据库中的知识发现是一个多步骤的处理过程,一般分为:
问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。
数据提取根据要求从数据库中提取相关的数据。
数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。
数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。
由此可见,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步。因此,往往可以不加区别地使用KDD和数据挖掘。一般在研究领域被称作数据库中知识发现的,在工程领域则称之为数据挖掘。
二、数据挖掘能做什么?
数据挖掘所涉及的学科领域和方法很多,以下四种是非常重要的发现任务。
数据总结其目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。
分类其目的是学会一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。
聚类是把一组个体按照相似性归类,即"物以类聚"。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。
关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买了牛奶"(面包+黄油+牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。
三、前途光明的数据挖掘技术
随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。
目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。
国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等,但还没有关于国内数据挖掘产品的报道。
一份最近的Gartner报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司应该投资的10个新技术领域。
可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。进行数据挖掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处于和国外公司实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究成果可以在Internet上免费获取,这更是一个可以利用的条件。我们希望数据挖掘能够引起国内实业界更多的重视,同时也希望能够有更多的国内软件厂商进入该领域,一起促进数据挖掘技术在中国的应用。
分享到:
相关推荐
数据挖掘系统是信息技术领域中的一个重要组成部分,主要用于从大量数据中发现有价值的信息和知识。DMS(Data Mining System)就是这样一个专门用于数据挖掘的系统。在这个案例中,我们讨论的是一个用Java编程语言...
什么是数据挖掘 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先不知道的,但是具有潜在有用性的信息和知识的过程。 用来进行数据挖掘的数据源必须是真实的和大量...
1. **数据挖掘定义**:解释数据挖掘是什么,它的目标和基本流程。 2. **数据预处理**:涵盖数据清洗、数据集成、数据转换和数据规约,这些都是在进行挖掘前必要的步骤。 3. **数据挖掘方法**:包括分类、聚类、关联...
数据挖掘是一种从海量数据中发现有价值信息和知识的过程,它涉及统计、机器学习、数据库技术等多个领域。在数据挖掘过程中,数据集起着至关重要的作用。数据集是用于训练和测试算法的基础,它包含了用于分析的原始...
数据挖掘是一种从海量数据中提取有价值知识的过程,它在信息技术领域扮演着至关重要的角色。"常用数据挖掘数据集"这个标题暗示了我们讨论的主题是关于数据挖掘过程中经常使用的数据资源,这些资源通常用于训练和测试...
数据挖掘在各行业的应用论文 数据仓库与数据挖掘.caj 空间数据挖掘技术.caj 数据仓库与数据挖掘技术及其在科技情报业的应用前景.caj 相关案件的数据挖掘.caj 数据挖掘技术.caj 一种实时过程控制中的数据挖掘算法研究...
### 数据分析与数据挖掘的基本概念 1. 数据分析(Data Analysis)是为了提取有用信息和形成结论,通过适当的统计分析方法对收集来的大量数据进行分析,以理解和消化数据集的过程。 2. 数据挖掘(Data Mining)是利用...
数据挖掘是什么? 为什么要进行数据挖掘? 数据挖掘有哪些应用? 数据挖掘有哪些任务? 机器学习是什么? 数据挖掘与机器学习之间有什么关系? 数据挖掘实战举例 数据挖掘领域重要会议
数据挖掘技术概述、数据仓库与 OLAP 技术、数据挖掘应用、数据挖掘工具、数据挖掘实例 数据挖掘技术概述 ------------------- 数据挖掘技术是近年来出现的客户关系管理(Customer Relationship Management,CRM)...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等领域的技术。在这个“数据挖掘完整PPT”中,我们可以期待深入了解到这一领域的核心概念和应用。 首先,数据挖掘的基本...
数据挖掘是利用算法从大量数据中提取信息和发现模式的科学领域,它不仅包括了数据库中的知识发现,还包括了对数据进行分析与理解的一系列过程。数据挖掘的技术和方法已经成为了多个领域,如商业智能、网络安全、生物...
数据挖掘是信息技术领域的一个重要分支,它涉及到从大量数据中发现模式、趋势和知识的过程。在数据挖掘领域,掌握核心概念和技术是至关重要的。以下是从给定的文件中提炼出的关键知识点,这些知识点覆盖了数据挖掘的...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等领域的技术。在这个“数据挖掘项目源码”中,我们可以深入理解如何在实践中运用这些技术。源码通常包含了项目的完整流程,...
"图说“什么是数据挖掘.docx"这个文档很可能详细描绘了这些概念,通过图表和文字结合的方式,使得复杂的数据挖掘概念更加直观易懂。对于初学者来说,这种形式的学习材料可以提高理解和记忆效果,快速入门数据挖掘的...
数据挖掘是一种从海量数据中提炼出有价值信息和知识的过程,它是信息技术、数据库技术、机器学习、统计学和可视化等多个领域的交叉学科。北京大学的这门数据挖掘与数据分析教程深入讲解了这个领域的核心概念和技术。...
数据挖掘与数据分析是现代信息技术领域中的重要组成部分,它们都是从海量数据中提取有价值信息的过程,但各有侧重。数据挖掘强调运用复杂的技术手段发现隐藏模式,而数据分析则更侧重于利用现有工具解读数据并应用于...
高级数据挖掘课程-大数据挖掘之互联网金融风控模型 本资源为高级数据挖掘课程,主要讲解大数据挖掘在互联网金融风控模型中的应用。以下是相关知识点: 1. 数据挖掘的定义和应用前景:数据挖掘是指从大量数据中挖掘...
本课程适合所有需要学习临床大数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
数据挖掘试题(150道) 数据挖掘是一种从大量数据中提取有价值信息的过程。这150道试题涵盖了数据挖掘的多个领域,包括关联规则发现、分类、聚类、数据预处理、探索性数据分析、建模描述、预测建模、寻找模式和规则...