转自:http://shenhaolaoshi.blog.sohu.com/
下面是一位朋友的问题,其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题,有时候真的很难仔细回答。其实,每个人都有自己的学习路径,还有自己的知识结构和期望的职业生涯,要得到一个统一的答案是困难的!
什么是解决问题:就是在明确实际情况和期望情况之间的差异后,为消除这种差异所采取的行动!在解决具体问题时,要先明确分类问题、差异问题,最后我们才能谈论共性!
我期望解答这个朋友问题可能具有共性,放在博客中,一些见解仅供大家参考:
沈浩老师:
您好!不知道您还记得我不,我是电信的一名新入职员工,在过年前给您写过一封E-mail.我期望自己能够在企业内从事跟数据挖掘的工作,期望通过数据挖掘这个工具来挖掘用户深层次的需求和研究用户的使用习惯及消费特点。
我在网上查阅过一些从事数据挖掘的专家的博客,有人提到如果在企业内从事数据挖掘方面的应用工作,需要掌握相关的数理统计知识,懂得使用相关软件就可以了,请问是这样的吗?还需要掌握数据仓库和程序算法方面的知识吗?因为我从本科到研究生都是学习管理方向的,数学方面的基础相对薄弱,因此想请您指教一下。
另外,如果我要入门,从哪个方面入手比较好呢?有什么合适的参考书吗?请你不吝赐教。
想必您平时的工作很忙,因此对这么唐突的给您写邮件请教而占用您的时间和精力表示歉意。期待您的回复!祝您工作顺利,身体健康!
沈浩的回答:
抱歉,事情太多,如果不追着就忘了!我认为你作为企业员工对数据挖掘感兴趣,最主要的就是从应用和解决问题开始,所以我想把数据挖掘这个狭义定义的内容改成你应该对数据分析感兴趣,数据挖掘只是数据分析的一个重要工具和解决方法之一!
数量统计知识方面:我认为统计思想是数学在实践中最重要的体现,但对于实际工作者最重要的是掌握统计思想,其实统计理论非常复杂,但实际应用往往是比较简单的!比如,很多人都在大学学了假设检验,但实际应用中假设就是看P值是否小于0.05,但是H0是什么?拒绝还是接受的是什么现实问题;要理解!
掌握软件问题:从软件角度学,是非常好的思路,我基本上就是这样学的。我常说编软件的人最懂理论,否则编不出来,编软件的人最知道应用,否则软件买不出去;现在软件越来越友好,把软件自带案例做一遍,你会自觉不自觉的掌握软件解决问题的思路和能解决的问题类型;
数据仓库问题:OLAP和数据挖掘是数据仓库建立基础上的两个增值应用,从企业整体角度,数据挖掘应该建立在企业数据仓库完备的基础上。所以说数据仓库是针对企业级数据挖掘应用提出的,但我们应该记住,企业从来不是为了数据挖掘建立数据仓库,而是因为有了数据仓库后必然会提出数据挖掘的需求!现在随着数据挖掘软件的工具智能化,以及数据仓库和ETL工具的接口友好,对数据库层面的要求越来越少;
数学不好可能反应了一个人思考问题的方式或深入理解问题的能力,但数学不是工具是脑具,不断解决问题的过程可以让我们思考问题更数学化!
沈浩老师建议:
不急,一步一步来!先把本职工作中的数据分析问题理解了,干好了!
熟练玩好Excel软件工具,这个可以看《Excel高级应用与数据分析》我写的书,当然有很多Excel论坛和网站,从我的博客就可以连接到。
学习好统计分析方法,我不是单指统计原理,而是统计分析方法,比如回归分析,因子分析等,不断进入统计分析解决问题的思考方式;这个可以看看SPSS软件方面的书和数据案例,通过软件学习解决数据分析的统计问题,这方面的书很多,当然你也可以关注我的博客,不断增加统计分析方法解决数据分析问题的思路,自己对照着完成!
在上述问题有了比较好的理解后,也就是你应该算是一个数据分析能手的时候,开始进入数据挖掘领域,你会发现用数据挖掘思想解决问题具有智能化、自动化的优势,接下来,你需要考虑数据建模的过程,通过学习Clementine软件或SAS的挖掘工具,不断理解数据挖掘与原来的数据分析工具有什么不同或优势!
当前面都是了解并且能够得心应手后,你就要有针对性的掌握你工作所在行业的问题,例如:电信行业的解决方案问题:客户流失、客户价值、客户离网、客户保持、客户响应、客户交叉销售等商业模型,同时与数据分析和数据挖掘统一在一起的解决方案!
接下来,你应该掌握数据库的一些原理和操作,特别是SQL语言的方式
你到了这个阶段,就应该有全面解决问题的能力,比如挖掘出来的知识或商业规则如何推送到营销平台上等等
梳理自己的知识结构,不仅会操作,现在你应该成为专家了,要能够宣扬你的知识能力和领导力,当然也要表明你在数据挖掘领域的专业特长
要经常帮助同事和行业朋友,比如帮助解决数据分析问题,帮助咨询,甚至给大家讲课,这对你的知识梳理和能力的提高非常重要,你的自信心会更强!
有兴趣,可以建立一个博客或什么,不断写点东西,经常思考和总结
结交广泛的朋友!
关于入门的教材:
互联网,其实不用买什么书网络基本都有;要有好的搜索能力,当然包括搜各种软件!
SPSS和Clementine软件的说明和案例,都做一遍;
《数据挖掘——客户关系管理的艺术》不错,当当网上查一下
《调查研究中的统计分析法》——我和柯老师写的,当当网也有
《Excel高级应用与数据分析》——我写的
《数据展现的艺术》——我和博易智讯合作
分享到:
相关推荐
综上所述,学好数据挖掘不是一蹴而就的事情,它需要从实际问题出发,系统地学习统计学、软件工具、行业应用和数据库知识。随着技能和知识结构的不断完善,个人在数据挖掘领域的能力也会逐步提升。这不仅需要耐心和...
因此,学好C语言不仅有助于学生掌握专业知识,还能提高他们的就业竞争力。 文章指出传统C语言教学模式过于偏重理论知识的传授,强调语法和语句构成,导致教学内容相对乏味,学生学习效果不理想。为了解决这一问题,...
既然这是谈建模竞赛,那么我还是需要谈一谈应试技巧的话题,对于代做或 者直接抄袭他人作品的行为我是十分反对的(不能以身试法,否则不仅损害个人 名誉,损害学弟学妹参赛资格,更加损害学校的声誉)。 1.选题机灵...
碳交易机制下考虑需求响应的综合能源系统优化运行模型及有效性分析,碳交易机制下需求响应的综合能源系统优化运行策略探索:低碳减排的实践路径,碳交易机制下考虑需求响应的综合能源系统优化运行 综合能源系统是实现“双碳”目标的有效途径,为进一步挖掘其需求侧可调节潜力对碳减排的作用,提出了一种碳交易机制下考虑需求响应的综合能源系统优化运行模型。 首先,根据负荷响应特性将需求响应分为价格型和替代型 2 类,分别建立了基于价格弹性矩阵的价格型需求响应模型,及考虑用能侧电能和热能相互转的替代型需求响应模型; 其次,采用基准线法为系统无偿分配碳排放配额,并考虑燃气轮机和燃气锅炉的实际碳排放量,构建一种面向综合能源系统的碳交易机制; 最后,以购能成本、碳交易成本及运维成本之和最小为目标函数,建立综合能源系统低碳优化运行模型,并通过 4 类典型场景对所提模型的有效性进行了验证。 通过对需求响应灵敏度、燃气轮机热分配比例和不同碳交易价格下系统的运行状态分析发现,合理分配价格型和替代型需求响应及燃气轮机产热比例有利于提高系统运行经济性,制定合理的碳交易价格可以实现系统经济性和低碳性协同。 关键词: 碳交易机制;
MATLAB演示程序:涡旋拉盖尔-高斯光束的横模特性与拓扑荷数及径向指数的影响分析,涡旋拉盖尔高斯光束MATLAB演示程序,涡旋拉盖尔高斯光束横模MATLAB演示程序 拓扑荷数l : 决定了光束的轨道角动量。 具有不同拓扑荷数的涡旋拉盖尔 - 高斯光束携带不同大小的轨道角动量。 影响光束的相位分布。 当l≠0时,光束具有螺旋相位结构,即相位随着角向坐标以的周期变化。 可以通过光学方法进行调控和测量,在量子信息处理、光学镊子等领域有重要应用。 径向指数p : 表示径向方向上的节点数。 p值越大,光束在径向方向上的能量分布变化越复杂,会出现更多的节点和暗区。 与拓扑荷数一起决定了光束的整体形状和强度分布。 ,涡旋拉盖尔-高斯光束; 拓扑荷数l; 径向指数p; MATLAB演示程序; 螺旋相位结构; 角向坐标变化; 轨道角动量。,MATLAB演示涡旋拉盖尔-高斯光束横模:拓扑荷数与径向指数的影响
PFC5.0算例代码解析:含矿物岩石材料,PFC5.0代码解析:探究由三种矿物构成的岩石与类岩石材料在GBM条件下的单轴压缩2D模拟算例,助力学习与技能提升,PFC5.0代码,含三种矿物组成的岩石或者类岩石材料,GBM,单轴压缩2d,算例代码仅供学习以及提升 ,关键词:PFC5.0代码;三种矿物组成;岩石或类岩石材料;GBM;单轴压缩2d;算例代码;学习;提升; 关键词:PFC5.0; 矿物组成; 岩石/类岩石; GBM; 单轴压缩; 算例学习; 提升;,PFC5.0模拟:含三种矿物岩石材料单轴压缩算例
Matlab三维A*算法详解:Astar三维路径规划及自定义地图、障碍物与代函数设定指南,Matlab三维A星算法路径规划工具箱,matlab三维A*算法 Astar三维路径规划 超详细注释 可自定义地图 自定义障碍物栅格数量和颜色 路径颜色 修改代价函数 预设5种常见评价指标 可 ,matlab; A*算法; 三维路径规划; 详细注释; 自定义地图; 自定义障碍物; 栅格数量和颜色; 路径颜色; 代价函数; 评价指标。,Matlab三维A*算法:超详细注释,自定义地图与障碍物路径规划
win32汇编环境,对话框中使用树形视图示例三
**基于SVPWM与死区补偿的PMSM dq轴电感离线辨识方法:高频注入法与电流极性分析**,SVPWM死区补偿技术下的PMSM电感离线辨识方法研究——基于电流极性与高频注入法的高效识别策略,SVPWM+死区补偿(基于电流极性)+高频注入法辨识PMSM的dq轴电感(离线辨识) 1.模型的中的电机,为采用自建的电机模型 2.适用于spmsm和ipmsm, 3.基于两相静止坐标轴电压注入,可通过设置合理的电压幅值和频率,在静止状态下准确辨识电感(更电机后,由于电机额定电压与转速的不同,可能需要调整原有的高频注入参数以获取满意的辨识效果)(不适用在线辨识) 4.死区补偿,是基于电流矢量极性判断 5.可进行有、无死区补偿下的辨识效果对比(资料中包含多个模型,为笔者当初在有无死区补偿,不同设置条件下的进行参数辨识效果对比,以及模型中包含的一些注释,或可供参考) 6.如果模型运行提示Ts未定义,可在命令行窗口输入Ts=0.0001,以解决该报错 7.模型与参考的期刊lunwen一一对应,可互相印证,其建模方式和思想,适合小白入门学习(不建议初学者无参考lunwen的模型) ,SVPWM; 死区补偿
关于电容电流反馈在有源阻尼谐振抑制及SVPWM策略中的运用及其结合单电流环与中点电位平衡控制的综合研究(参考《某领域文献》《另一些领域的研究》等),电容电流反馈SVPWM控制,电容电流反馈有源阻尼谐振抑制+SVPWM 含: [1]有源阻尼谐振抑制+SVPWM [2]单电流环控制 [3]中点电位平衡控制 提供相关参考文献 ,有源阻尼谐振抑制; SVPPM; 电容电流反馈; 谐振抑制; 中点电位平衡控制; 文献暂无。,电容电流反馈结合SVPWM与有源阻尼谐振抑制的研究与实现
易福门RFID:高效控制标准块,多重调用易管理,轻松修改编号与硬件标识符,RFID控制标准块多重调用便捷设,易福门RFID控制标准块,可以多重调用,只需要更改编号和硬件标识符。 ,易福门RFID;控制标准块;多重调用;编号;硬件标识符,易福门RFID标准控制块:多调高效,只需更改编号和硬件标识
TypeScript 基础语法,本人亲自整理的资料
基于博途西门子PLC的多种液体混合控制系统设计与实现:一份包含全流程的电子程序资料,基于博途西门子PLC的多种液体混合控制系统设计与实现:一份包含全流程的电子程序资料,基于plc多种液体混合控制系统设计 博途 西门子plc 本为电子程序资料 一、包含内容: ①西门子PLC程序+HMI仿真工程 (博途V14或以上) 一份; ②配套有IO点表+PLC接线图+主电路图+控制流程图 (CAD源文件可编辑); ,基于plc多种液体混合控制系统设计; 博途V14; 西门子plc; 混合控制; 控制系统设计; 程序仿真; IO点表; PLC接线图; 主电路图; 控制流程图。,基于博途V14的西门子PLC多种液体混合控制系统设计资料
寻找热泵最佳压力的优化算法 输入Cop和高压值,以找到最大化Cop的最佳高压 Optimization algorithm to find optimal pressure of heat pump Inputs of Cop and high pressure values to find optimal high pressure that maxes out COP
三相变压器空载合闸励磁涌流仿真研究:特点分析与观察,变压器空载合闸:三相励磁涌流仿真研究及特性分析,【1】变压器空载合闸时励磁涌流的仿真 仿真目的:分析三相变压器空载合闸过程中,观察励磁涌流的特点 仿真结果:励磁涌流的特点和分析过程可详细咨询。 ,励磁涌流;变压器空载合闸;仿真目的;分析特点;仿真结果。,变压器空载合闸仿真:励磁涌流分析
孪生模型环境安装及其训练方法
更多毕业设计https://cv2022.blog.csdn.net/article/details/124463185
315MHz与433MHz无线遥控接收解码Keil源程序及AD格式电路图详解,315MHz和433MHz无线遥控接收解码源程序,附带Keil源程序和AD格式电路图,315 433MHZ无线遥控接收解码源程序 Keil源程序 含AD格式电路图 ,315MHz无线遥控接收; 433MHz无线解码源程序; Keil源程序; AD格式电路图,基于Keil的315/433MHz无线遥控解码源程序解析及AD格式电路图详解
MATLAB滚动轴承故障诊断程序:采用西楚凯斯大学数据,基于变分模态分解(VMD)算法与包络谱分析的故障诊断比较实现,MATLAB滚动轴承故障诊断程序:采用西楚凯斯大学数据,基于变分模态分解(VMD)算法与包络谱分析的故障诊断比较实现,MATLAB滚动轴承故障诊断程序:采用西楚凯斯大学数据,首先通过变分模态分解(VMD)算法处理,而后分别通过包络谱分析实现故障诊断 ps.通过尖峰对应的频率与计算出的故障频率比较,实现故障诊断 ,核心关键词:MATLAB; 滚动轴承故障诊断; 西楚凯斯大学数据; 变分模态分解(VMD)算法; 包络谱分析; 故障频率比较。,MATLAB基于VMD算法的滚动轴承故障诊断程序:西楚凯斯大学数据包络谱分析
个人ii c的一个说明的资料