对于“数据挖掘”,有多种文字不同但含义接近的定义,但简单来说 ,可以归纳为“试图从海量数据中找出有用的知识”。在学术界,有时也将“数据挖掘”(DM)称为“数据库中的知识发现”(KDD)。而“机器学习”是人工智能的核心研究领域之一,目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。
南京大学的周志华教授曾专门撰文论述了数据挖掘和机器学习以及数据库之间的关系,他提出:数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。不同的教材从不同的方面结合其基础学科知识讲述数据挖掘技术,不同专业和技术背景的学生或数据挖掘研究人员和应用人员可以根据自身的专业方向选择不同的数据挖掘切入点。下面就简单归纳目前比较主流的数据挖掘和机器学习方面的教材。
1. Data Mining:Concepts and techniques by Jiawei Han (Morgan Kaufmann)
主要从数据库的角度(数据管理和数据计算的角度)讲解数据挖掘,作者Jiawei Han是数据挖掘领域的华人第一人,现任UIUC CS Dept.的教授。本书对数据挖掘基本概念、算法及其相关技术有比较全面的阐述,是国内大多数高校上课指定教材,而且不要求太高的数学基础,对那些数学功底一般的学生非常适合。
2.Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach, Vipin Kumar (Addison Wesley)
也是从数据库的角度讲解数据挖掘,内容编排合理,由浅入深,由数据、分类、关联规则、聚类到异常检测的内容组织很符合学生的学习及认识规律,易于组织教学。且分类、关联、聚类的内容分两章介绍,一章为基本主题,另一章为提高主题,便于教师进行教学内容的组织及选择。
3. Data Mining: Practical Machine Learning Tools and Techniques by Ian H. Witten, Eibe Frank(Morgan Kaufmann)
主要从机器学习的角度,也有称从数据挖掘的应用实现角度来讲解数据挖掘,描述了各种算法、模型及其Java实现,重点是以应用的观点利用case来说明数据挖掘的算法模型,对于具体算法的原理介绍不是非常详细。它对数据挖掘的Java软件包Weka有比较深的介绍。作者们都是weka项目组主要成员。
4. Principles of Data Mining by David J. Hand (MIT Press)
主要从统计学的角度来解析数据挖掘以及其与统计的关系。其中如建模、测量、评分函数、模型等术语都是从统计者的角度出发,书中并没有具体的说明KDD与DM之间的关系。比较易于统计系和数学系的学生采用。
5. Machine Learning by Tom Mitchell (McGraw-Hill)
CMU等许多国际知名大学机器学习课程的教材。目前发表的各种机器学习专著或论文基本都会引用这本书的内容。作者Tom Mitchell是CMU的教授,美国人工智能协会的,《机器学习》杂志和国际机器学习年度会议的创始人,在ML领域久负盛名。本书也是最经典和采用率最高的机器学习教材。本书需要的数学基础也很少,但对必要的背景介绍相当丰富,非常适合初学者。
6. Introduction to Machine Learning by Ethem Alpaydin (MIT Press)
在Tom Mitchell大作光辉映衬下不太引人注目的一本机器学习导论课教材,讲述基于统计学、数据挖掘、模式识别、神经网络、人工智能和信号处理控制的机器学习方法。
7.Pattern Recognition and Machine Learning by Christopher M. Bishop(Springer)
一本新书,作者是英国剑桥微软研究院的副主管,爱丁堡大学计算机教授。本书全面讲解模式识别和机器学习领域的基本理论和业界的最新发展(如概率图模型、确定性推理方法),强调贝叶斯统计推理的方法,图解清晰、推理详细,习题和联系非常丰富。需要微积分、线性代数和统计学方面的预备知识。
8.The elements of statistical learning by T. Hastie,R. Tibshirani,J. H. Friedman(Springer)
强调贝叶斯统计,对于初学者比较困难,要求读者具备机器学习的一些经验和工程数学背景。
9.Pattern classification by Richard O. Duda, Peter E. Hart, David G. Stork (John Wiley & Sons)
关注分类而不是回归,难度比较大,不适合初学者学习,也要求读者具有相当的数学基础和工程背景。
分享到:
相关推荐
中科院老师推荐的数据挖掘教材,大家可以无偿下载,分为六个部分
《(朱明)数据挖掘教材》是一本深入探讨数据挖掘技术的专业书籍,旨在帮助读者理解和掌握数据挖掘的核心概念、方法和应用。数据挖掘是信息技术领域中的一个重要分支,它通过运用统计学、机器学习和数据库技术,从海量...
神经网络和数据挖掘的入门教材
本教材《数据挖掘与OLAP理论与实务》由清华大学出版,旨在深入浅出地介绍这两个领域的核心理论和实践应用。 数据挖掘,全称为Data Mining,是一种从大量数据中发现有价值信息的过程。它通过应用统计学、机器学习和...
总之,《数据挖掘技术及其应用》是一本覆盖广泛、内容丰富的教材,适合对数据挖掘感兴趣的初学者和专业人士阅读,无论是为了学术研究还是实际工作,都能从中受益匪浅。通过这本书的学习,读者可以掌握数据挖掘的基本...
数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。本书将介绍数据挖掘与数据库知识发现的基本知识,以及从大量有噪声、不完整、甚至是不一致数据集合中,挖掘出有意义...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了统计学、计算机科学和人工智能等多个领域的理论与技术。本教程全面覆盖了数据挖掘的核心概念、方法和应用,旨在帮助学习者深入理解并掌握这一领域。 首先...
数据挖掘与数据分析是现代信息技术领域中的重要组成部分,它们都是从海量数据中提取有价值信息的过程,但各有侧重。数据挖掘强调运用复杂的技术手段发现隐藏模式,而数据分析则更侧重于利用现有工具解读数据并应用于...
《数据挖掘概念与技术》是一本深入探讨这个主题的经典教材,本课件集是基于这本书的全面讲解。 1、序论:这部分通常会介绍数据挖掘的基本概念,包括它的定义、目标和应用领域。数据挖掘的目标是从原始数据中提取出...
韩家炜教授的《数据挖掘:原理与算法》是本课程可能采用的教材,这本书在数据挖掘领域具有广泛影响力。书中详细阐述了数据挖掘的理论基础和实际应用,包括预处理、分类、聚类、关联规则学习以及序列模式挖掘等核心...
同时,也能够作为高等院校计算机类、财经类、管理类专业本科生和研究生的数据挖掘教材。数据挖掘是当前数据分析领域中最活跃最前沿的地带。Clementine充分利用计算机系统的运算处理能力和图形展现能力,将数据挖掘...
数据挖掘是一种从海量数据中提取有价值知识的过程,它在当今信息爆炸的时代中具有重要的实际应用价值。哈工大的数据挖掘课程旨在帮助学生掌握这一领域的核心概念、方法和技术。本学习资料包包含了五个关键部分,涵盖...
2. 精选教材,突出内容重点:由于数据挖掘教材种类繁多,教师需要精心选择适合学生实际水平和课程要求的教材。教学内容应以基本数据挖掘技术的原理和算法讲解为主,抓住每个章节中的经典算法及算法改进,引导学生...
15.1 空间数据库挖掘 15.2 多媒体数据挖掘 15.3 文本挖掘 15.4 挖掘万维网 15.5 挖掘数据流 15.6 时间序列数据挖掘 15.7 挖掘事务数据库中的序列模式 15.8 挖掘生物学数据中的序列模式
在数据挖掘的五大任务中,包括分类(如决策树)、聚类分析、关联规则学习、回归分析和异常检测,这些都在数据挖掘教材中占有重要地位。 例如,在第4章“分类:基本概念、决策树和模型评估”中,学习者会了解到如何...
接下来,“数据挖掘概念与技术课后习题答案 (第2版,英文).pdf”提供了数据挖掘教材的习题解答,这对于自我学习或者复习非常有帮助。第二版的英文答案可以帮助学习者检查自己的理解,同时提高英语阅读能力。虽然第三...
数据挖掘是一种从海量数据中提取出有价值信息的技术,它涵盖了统计学、机器学习、数据库管理等多个领域的知识。在“北大计算机学院杨建武文本挖掘”教程中,我们有望深入理解这一领域的核心概念与实践技巧。 首先,...
数据挖掘入门级教材 数据挖掘入门材料1-数据挖掘导论 数据挖掘入门材料2-数据预处理 数据挖掘入门材料3-定性归纳 数据挖掘入门材料4-分类与预测 数据挖掘入门材料5-关联挖掘 数据挖掘入门材料6-聚类分析 数据挖掘...
中国移动深度数据挖掘内训教材涵盖了多个方面的内容,包括数据挖掘的基本概念、工具、方法论以及市场分析报告的撰写技巧等。本教材还特别强调了数据可视化的重要性,包括不同图表的使用场景及其对数据分析的辅助作用...