转自:http://shenhaolaoshi.blog.sohu.com/
下面是一位朋友的问题,其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题,有时候真的很难仔细回答。其实,每个人都有自己的学习路径,还有自己的知识结构和期望的职业生涯,要得到一个统一的答案是困难的!
什么是解决问题:就是在明确实际情况和期望情况之间的差异后,为消除这种差异所采取的行动!在解决具体问题时,要先明确分类问题、差异问题,最后我们才能谈论共性!
我期望解答这个朋友问题可能具有共性,放在博客中,一些见解仅供大家参考:
沈浩老师:
您好!不知道您还记得我不,我是电信的一名新入职员工,在过年前给您写过一封E-mail.我期望自己能够在企业内从事跟数据挖掘的工作,期望通过数据挖掘这个工具来挖掘用户深层次的需求和研究用户的使用习惯及消费特点。
我在网上查阅过一些从事数据挖掘的专家的博客,有人提到如果在企业内从事数据挖掘方面的应用工作,需要掌握相关的数理统计知识,懂得使用相关软件就可以了,请问是这样的吗?还需要掌握数据仓库和程序算法方面的知识吗?因为我从本科到研究生都是学习管理方向的,数学方面的基础相对薄弱,因此想请您指教一下。
另外,如果我要入门,从哪个方面入手比较好呢?有什么合适的参考书吗?请你不吝赐教。
想必您平时的工作很忙,因此对这么唐突的给您写邮件请教而占用您的时间和精力表示歉意。期待您的回复!祝您工作顺利,身体健康!
沈浩的回答:
抱歉,事情太多,如果不追着就忘了!我认为你作为企业员工对数据挖掘感兴趣,最主要的就是从应用和解决问题开始,所以我想把数据挖掘这个狭义定义的内容改成你应该对数据分析感兴趣,数据挖掘只是数据分析的一个重要工具和解决方法之一!
数量统计知识方面:我认为统计思想是数学在实践中最重要的体现,但对于实际工作者最重要的是掌握统计思想,其实统计理论非常复杂,但实际应用往往是比较简单的!比如,很多人都在大学学了假设检验,但实际应用中假设就是看P值是否小于0.05,但是H0是什么?拒绝还是接受的是什么现实问题;要理解!
掌握软件问题:从软件角度学,是非常好的思路,我基本上就是这样学的。我常说编软件的人最懂理论,否则编不出来,编软件的人最知道应用,否则软件买不出去;现在软件越来越友好,把软件自带案例做一遍,你会自觉不自觉的掌握软件解决问题的思路和能解决的问题类型;
数据仓库问题:OLAP和数据挖掘是数据仓库建立基础上的两个增值应用,从企业整体角度,数据挖掘应该建立在企业数据仓库完备的基础上。所以说数据仓库是针对企业级数据挖掘应用提出的,但我们应该记住,企业从来不是为了数据挖掘建立数据仓库,而是因为有了数据仓库后必然会提出数据挖掘的需求!现在随着数据挖掘软件的工具智能化,以及数据仓库和ETL工具的接口友好,对数据库层面的要求越来越少;
数学不好可能反应了一个人思考问题的方式或深入理解问题的能力,但数学不是工具是脑具,不断解决问题的过程可以让我们思考问题更数学化!
沈浩老师建议:
不急,一步一步来!先把本职工作中的数据分析问题理解了,干好了!
熟练玩好Excel软件工具,这个可以看《Excel高级应用与数据分析》我写的书,当然有很多Excel论坛和网站,从我的博客就可以连接到。
学习好统计分析方法,我不是单指统计原理,而是统计分析方法,比如回归分析,因子分析等,不断进入统计分析解决问题的思考方式;这个可以看看SPSS软件方面的书和数据案例,通过软件学习解决数据分析的统计问题,这方面的书很多,当然你也可以关注我的博客,不断增加统计分析方法解决数据分析问题的思路,自己对照着完成!
在上述问题有了比较好的理解后,也就是你应该算是一个数据分析能手的时候,开始进入数据挖掘领域,你会发现用数据挖掘思想解决问题具有智能化、自动化的优势,接下来,你需要考虑数据建模的过程,通过学习Clementine软件或SAS的挖掘工具,不断理解数据挖掘与原来的数据分析工具有什么不同或优势!
当前面都是了解并且能够得心应手后,你就要有针对性的掌握你工作所在行业的问题,例如:电信行业的解决方案问题:客户流失、客户价值、客户离网、客户保持、客户响应、客户交叉销售等商业模型,同时与数据分析和数据挖掘统一在一起的解决方案!
接下来,你应该掌握数据库的一些原理和操作,特别是SQL语言的方式
你到了这个阶段,就应该有全面解决问题的能力,比如挖掘出来的知识或商业规则如何推送到营销平台上等等
梳理自己的知识结构,不仅会操作,现在你应该成为专家了,要能够宣扬你的知识能力和领导力,当然也要表明你在数据挖掘领域的专业特长
要经常帮助同事和行业朋友,比如帮助解决数据分析问题,帮助咨询,甚至给大家讲课,这对你的知识梳理和能力的提高非常重要,你的自信心会更强!
有兴趣,可以建立一个博客或什么,不断写点东西,经常思考和总结
结交广泛的朋友!
关于入门的教材:
互联网,其实不用买什么书网络基本都有;要有好的搜索能力,当然包括搜各种软件!
SPSS和Clementine软件的说明和案例,都做一遍;
《数据挖掘——客户关系管理的艺术》不错,当当网上查一下
《调查研究中的统计分析法》——我和柯老师写的,当当网也有
《Excel高级应用与数据分析》——我写的
《数据展现的艺术》——我和博易智讯合作
分享到:
相关推荐
数据挖掘是一种重要的信息技术,用于从...总之,学好数据挖掘需要从实际问题出发,结合统计学、软件工具、行业应用和数据库知识,逐步深入并不断完善自己的技能和知识结构。这是一个循序渐进的过程,需要耐心和实践。
数据挖掘是指从大量数据中提取或“挖掘”信息的过程,这些信息是隐藏的、未知的且潜在有用的。数据挖掘技术主要应用于包括结构化和非结构化在内的各类数据。在众多领域,数据挖掘正成为一个重要的技术手段,用以帮助...
数据仓库与数据挖掘技术浅谈.caj 用户访问模式数据挖掘的模型与算法研究.caj 数据仓库的建设与数据挖掘技术浅析.caj 分类特征规则的数据挖掘技术.caj 数据挖掘技术的主要方法及其发展方向.caj OLAP和数据挖掘技术在...
本篇文章《浅谈靶场数据挖掘中流数据的特征提取方法.pdf》深入探讨了在靶场数据挖掘的背景下,如何对流数据进行有效的特征提取。文章首先概述了数据挖掘的基本模型,接着分析了特征提取的意义,并具体讨论了靶场数据...
在数据分析领域,数据挖掘是一门综合性的科学,它的目的和手段在于从大量复杂且具有不完全、离散特征的数据集中提取出有意义的、新颖的、具有统一特征且有用的模式或信息。数据挖掘的过程中,会涉及到多种技术的应用...
数据挖掘是一种从海量数据中提取有价值知识的过程,它在信息技术领域扮演着至关重要的角色。"常用数据挖掘数据集"这个标题暗示了我们讨论的主题是关于数据挖掘过程中经常使用的数据资源,这些资源通常用于训练和测试...
### 数据分析与数据挖掘的基本概念 1. 数据分析(Data Analysis)是为了提取有用信息和形成结论,通过适当的统计分析方法对收集来的大量数据进行分析,以理解和消化数据集的过程。 2. 数据挖掘(Data Mining)是利用...
数据挖掘技术是一门综合性的学科,它将数据库技术、统计学、机器学习、模式识别、人工智能、神经网络等多种成熟技术整合起来,以应对大量数据中的信息提取和知识发现的需求。随着信息技术的迅猛发展,数据挖掘在各个...
本课程适合所有需要学习临床大数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
数据挖掘是一种从海量数据中提炼出有价值信息和知识的过程,它是信息技术、数据库技术、机器学习、统计学和可视化等多个领域的交叉学科。北京大学的这门数据挖掘与数据分析教程深入讲解了这个领域的核心概念和技术。...
第2讲_MATLAB数据挖掘基础 共44页.pdf 第3讲_MATLAB数据挖掘算法(上) 共42页.pdf 第4讲_MATLAB数据挖掘算法(下) 共45页.pdf 第5讲_MATLAB高级数据挖掘技术 共23页.pdf 第6讲_MATLAB数据挖掘项目实例 共25页.pdf ...
数据挖掘是利用算法从大量数据中提取信息和发现模式的科学领域,它不仅包括了数据库中的知识发现,还包括了对数据进行分析与理解的一系列过程。数据挖掘的技术和方法已经成为了多个领域,如商业智能、网络安全、生物...
本课程适合所有需要学习临床大数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
数据挖掘技术概述、数据仓库与 OLAP 技术、数据挖掘应用、数据挖掘工具、数据挖掘实例 数据挖掘技术概述 ------------------- 数据挖掘技术是近年来出现的客户关系管理(Customer Relationship Management,CRM)...
高级数据挖掘课程-大数据挖掘之互联网金融风控模型 本资源为高级数据挖掘课程,主要讲解大数据挖掘在互联网金融风控模型中的应用。以下是相关知识点: 1. 数据挖掘的定义和应用前景:数据挖掘是指从大量数据中挖掘...
文章首先探讨了数据挖掘技术的概念与内涵,然后分析了数据挖掘技术在管理信息系统中的具体应用,包括数据分类、数据收集和数据分析等方面,并指出数据挖掘技术带来的行业冲击和技术问题。 一、数据挖掘技术的概念与...
数据挖掘可行性研究报告是深入探讨如何在现实环境中实施数据挖掘项目的关键文档。这份报告全面地涵盖了数据挖掘的背景、现状、发展趋势、需求分析和技术分析等多个重要方面,为决策者提供了宝贵的指导。 1. 背景及...
《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外...
本课程适合所有需要学习临床大数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...