数据、信息、知识、智慧是信息系统的几个层次,挖掘的目的是获得知识甚至智慧,即对于信息的归纳和演绎的能力。筛选的演进过程是 sql查询--搜索---推荐--聚类、分类。
一、关于数据
统计描述、可视化、相似性和相异性;规约(简化),小波变换,主成分分析(PCA)
二、可以做哪些事情
http://www.cnblogs.com/tornadomeet/p/3395593.html
1、相关性:相关系数、回归分析。FP Growth算法和Eclat算法
2、分类:
线性、对数线性、逻辑回归
树形(符号):C4.5 CART(结果是条件概率)
概率:朴素贝叶斯、贝叶斯网络、EM算法
神经网络:(感知的时候有网络,推理和工作的时候有规则)BP->深度学习->DBN RBM CNN(适合于模式识别)
SVM(存数学优化):线性可分、核技巧
组合:bagging(投票)、adaboost(考虑之前效果)、随机森林(多个CART)
3、聚类:
划分方法:K-means
密度聚类:DBSCAN OPTICS DENCLUE
层次聚类:BIRCH Chameleon
基于网格(先画好格子):STING,CLIQUE,WaveCluster
基于概率(数据之间满足概率分布函数,用数据拟合分布):COBWEB算法、GMM(Gaussian Mixture Model),神经网络算法有SOM(Self Organized Maps)
4、异常检测
三、分类算法的比较
http://www.cyzone.cn/a/20170422/310196.html
回归(Regression):建立函数关系,例子:交通流量分析、邮件过滤
决策树:擅长对一系列不同特征、品质、特性进行评估,例子:信用评估、赛马结果
随机森林:大规模数据集和存在大量且有时不相关特征的项。例子:用户流失分析、风险评估
朴素贝叶斯:小数据集上有显著特征,例子:情感分析、消费者分类
隐马尔可夫模型:预测隐藏状态,例子:面部表情分析、气象预测
循环神经网络(Recurrent neural network):存在大量有序信息时,例子:图像分类与字幕添加、政治情感分析。
长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):自然语言处理、翻译
卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。当存在非常大型的数据集、大量特征和复杂的分类任务时。图像识别、文本转语音、药物发现
四、理解
回归:函数拟合
树:if else的规则
概率:联合分布
网:不是找到函数映射关系或联合分布律,而是将类似于函数映射的关系,通过神经网络的节点权值和偏置来记录和表达,其真正的函数解析式很多时候是无法直接写出的(所以叫做ai黑盒),算法不复杂,依赖数据(形象思维)
svm:严格的数学函数,算法复杂、数据依赖小
五、深度学习
别的机器学习方法最难的是降维、特征选择和标记等预处理,但是深度学习的特点是自动的提取分类需要的低层次或者高层次特征(用大数据去学习feature,适合于声音、图像、翻译、情绪分析等特征不明显的数据)。之后根据这些特征为输入进一步进行处理。
六、应用领域
文本挖掘与自然语言处理
图像、计算机视觉
语音
http://blog.csdn.net/lanchunhui/article/category/5842379/7
https://github.com/justdark/dml
相关推荐
#### 一、数据挖掘概览 **1.1 数据挖掘定义** 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的、但又是潜在有用的信息和知识的过程。这种知识和信息是...
**数据挖掘概览**:数据挖掘(Data Mining)是一种从大量数据中提取有用信息的过程,涉及统计学、机器学习、数据库技术和人工智能等多个领域。它不仅限于简单的数据检索和查询,更侧重于对数据进行深入的分析、综合...
#### Oracle数据挖掘概览 Oracle数据挖掘是Oracle 9i数据库的一个重要组成部分,它提供了一套全面的数据分析工具和技术,帮助企业和组织从海量数据中提取有价值的信息。通过将数据挖掘技术集成到数据库内核中,...
#### 一、数据挖掘概览 数据挖掘是一种从大量数据中提取出有用的信息和知识的过程。在这个过程中,利用各种算法和技术来发现隐藏于数据内部的模式、趋势和关联,从而帮助企业或组织做出更加明智的决策。 **数据集...
#### 数据挖掘概览 数据挖掘,作为人工智能领域的一个重要分支,指的是从海量的数据中提炼出有价值、新颖且可理解的模式或知识的过程。这一过程不仅依赖于计算能力的提升,还融合了统计学、人工智能、机器学习等...
#### 一、数据挖掘概览 **数据挖掘**是一种从大量数据中自动或半自动地提取有用信息的过程。它利用了统计学、机器学习、数据库技术等多种方法来揭示隐藏在数据中的模式和趋势。韩家炜教授在其著作《数据挖掘:概念...
#### 一、数据挖掘概览 数据挖掘是指从大量数据中自动搜索隐藏于其中的信息的过程。它涉及到多种技术,包括机器学习、统计学、数据库管理和模式识别等。数据挖掘的目标是发现有价值的知识,帮助企业和组织做出更好...
#### 数据挖掘概览 数据挖掘是指从大量数据中自动搜索隐藏于其中的信息的过程。它涉及到多种技术,包括机器学习、统计学、数据库管理和人工智能等领域的方法。本文旨在对几款国外知名的、具有影响力的商业数据挖掘...
#### 一、大数据挖掘概览 大数据挖掘是指从海量数据中提取有价值的信息和知识的过程。随着互联网技术的发展和普及,每天产生的数据量呈指数级增长,如何从这些海量数据中提取出有用的信息成为了企业和研究者关注的...
#### 一、数据挖掘概览 数据挖掘是机器学习领域的一个重要分支,涉及从大量的数据集中自动发现有用的信息和知识的过程。随着信息技术的进步,特别是数据库管理和人工智能技术的发展,数据挖掘成为了连接这两个领域的...
本课程基于Ripley(1996)、Venables & Ripley(1999, 2002)等著作,并结合了在线补充材料,旨在提供一个全面的数据挖掘概览。 #### 课程结构与内容 ##### 1. 多元分析与图形方法 统计数据挖掘的第一部分介绍了...
### 数据挖掘的概念与技术 #### 一、引言 数据挖掘是一种从大量数据中提取有用信息的过程或方法。它不仅仅是数据库、统计学和机器学习技术的简单转变,而是这些领域技术的一种集成应用和发展。 1. **是否是另一种...
#### 数据挖掘概览 随着信息技术的快速发展,大数据已成为推动各行各业发展的关键因素之一。在这样的背景下,数据挖掘作为从海量数据中提取有价值信息的关键技术,其重要性日益凸显。本文将针对一份题为“大数据时代...
数据挖掘概览 - **课程目标**:本课程旨在提供一套全面的数据挖掘方法和技术体系,适用于处理海量数据集。 - **适用领域**:广泛应用于互联网服务、金融分析、医疗保健等领域。 #### 2. MapReduce - **定义**:一...
#### 一、数据挖掘概览 **数据挖掘**是一种从大量数据中自动发现有意义的模式、规律、关联以及其他高级别信息的过程。它结合了计算机科学、统计学以及机器学习等多个领域的知识和技术。《数据挖掘:概念与技术》这...
### Python讲义中的数据挖掘概览 #### 一、引言 在《Python讲义》这一资料中,虽然主要提及的是Python编程语言的基础知识与应用技巧,但在此文档的片段中,作者Yijun Zhao教授从数据挖掘的角度出发,为我们介绍了...