3、数据挖掘可以做什么?
数据挖掘的用处有很多,在这里我只想从技术和应用两个层面来简单谈谈。
从技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。描述型挖掘是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数据特征的概念描述。举个例子来说,某家银行有几百万客户,数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银行不可能清楚地了解每位客户是什么样的客户,客户的消费模式到底是怎样的?这时一般需要把全体客户进行细分,划分为几个客户群,而且这种划分可以保证具有相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群,银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型,它就是一种典型的描述型挖掘。
预测型挖掘,顾名思义,就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失,哪些客户对促销活动会积极响应,哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用,从而更快地见效。
从应用层面来说,数据挖掘可以应用到很多行业中,包括电信、银行、证券、保险、制造、因特网等等。抛开具体行业的特定应用不谈,在各个行业中一般都会把数据挖掘应用在客户关系管理(CRM)之中。在CRM中的数据挖掘应用,包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外,信用评分、欺诈侦测和文本挖掘等也是常见的应用。
客户细分已经在描述型挖掘的例子中予以阐述,不再赘言。
准确地评价客户价值是企业成功运营的关键。这里的客户价值不仅仅包括客户当前给企业带来的收入,还包括消耗在客户身上的各种成本,以及客户未来会给企业带来多少价值。把客户的当前价值和未来价值合起来就构成了对客户整个生命周期(从成为企业的客户到最终流失)价值的综合评价,即LTV(LifeTime Value)。当我们明确了解客户价值之后,就可以有针对性地区分对待,尽量留住高价值客户,推动中低价值的客户向高价值发展,并为不同价值的客户提供不同等级的服务。
图: 客户生命周期各阶段的数据挖掘应用
上图中给出了客户生命周期各个阶段中可以用到的数据挖掘,横轴为时间轴,纵轴则为客户在不同时间点给企业带来的利润。整个生命周期可以分为四阶段:起始期(从潜在客户变成新客户)、发展期(逐步扩大使用产品的范围和数量)、成熟期(对企业的利润贡献达到顶峰)、终止期(逐渐远去流失)。
在客户生命周期的不同阶段,数据挖掘可以帮我们做什么呢?在起始期,由于潜在客户尚未与企业有多少接触,对各种品牌和产品缺乏了解和认知,他还在观望,看看有没有适合自己的产品。此时潜在客户基本上还谈不上对企业有多高的忠诚度,我们可以运用数据挖掘技术来协助锁定目标潜在客户群,通过对现有客户和营销活动的分析,发现哪些人最有可能变成我们的客户,通过什么促销手段和渠道来更有效地打动他,并评价如果把他发展为客户之后会给企业带来多少收益。这种数据挖掘应用称为“客户获取”。
在发展期,客户对企业的产品和服务使用频率相对偏低,用量也不大,这时可以运用数据挖掘技术来激活睡眠客户,刺激用户购买更多不同的产品(交叉销售),或者扩大现有产品的购买量(提升销售)。数据挖掘技术中的关联分析可以帮助企业发现哪些产品之间的关联程度最高,预测技术可以帮助我们了解客户对特定营销活动是否会积极响应,聚类技术则可以帮助我们找到具有相似行为和偏好的客户群体,从而进一步推动客户向高价值客户发展。
在成熟期,客户对企业的利润贡献已经最大化。但这时企业不能躺在功劳簿上睡大觉,而应该居安思危,谨防优质客户的衰退和流失,及时对激烈的市场竞争作出反应。此时可以运用数据挖掘中的预测技术来及早发现哪些客户已经出现了异动,可能会流失,并采取有针对性的挽留行动。
实际上,在整个客户生命周期,我们都要不断对客户的行为和价值进行分析,随时掌握他们的偏好和异动,这样才能加强企业对客户的洞察力,对运营进行有力的指导和促进。而这些分析都是数据挖掘可以帮助我们做到的。
4、数据挖掘流程及主流工具
限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。
Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于2005年10月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:
l 一个发现过程
l 具有灵活的框架
l 按照清晰定义的策略进行
l 包含多个检查点
l 多次定期的评估
l 允许在反馈环路中对函数进行调整
l 组织为叠代式的架构
很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。
但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。
“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):
l 数据存取能力:能否访问各种类型的数据,数据接口的效率如何
l 数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等
l 模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署
l 可视化能力:多种图形展示,交互操作
l 性能:软硬件平台支持,并行,多CPU,多线程,分布式架构
l 对各种用户和行业解决方案的支持能力
l 其它能力支持:中文支持,友好界面,批处理,API,元数据管理等
企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括Gartner、IDC等等。以下引用Gartner在2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。
“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SAS和SPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXEN和Portrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”
“在此项评测中,共有SAS、SPSS、KXEN、Portrait Software、Angoss Software、Unica、ThinkAnalytics、Fair Isaac、Infor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SAS、KXEN和SPSS。”
在2006年第1季度的评估报告中,还曾包含Chordiant和Teradata等厂商。
评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。
[点击在新窗口查看原始图片]
图: Gartner客户数据挖掘魔力象限(2007年第2季度)
在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SAS和SPSS分别简要介绍。
SAS
l 在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。
l SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS。
l SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。
SPSS
l SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS。
l SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。
分享到:
相关推荐
在数据挖掘过程中,我们通常会遇到以下几个关键步骤: 1. 数据预处理:这是数据挖掘流程的第一步,包括数据清洗(去除异常值、缺失值填充)、数据转换(如归一化、标准化)、数据集成(将来自不同源的数据整合)等...
在实际操作中,我们可能会遇到上机安排和作业,比如"数据挖掘上机安排.doc"可能包含了实验的时间表、任务分配和预期成果。"数据挖掘4及上机作业.rar"可能包含了一些高级主题,比如第4阶段的数据挖掘任务,可能涵盖了...
在设计过程中遇到了如何建立有利于数据挖掘的数据库结构等问题。解决这些问题的方法包括: - 明确数据需求,确保数据的完整性和准确性。 - 合理设计维度模型,增强数据之间的关联性。 **设计方案的主要优点及不足*...
数据挖掘是信息技术领域的一个关键分支,它涉及到从大型数据集中提取有用信息并转换为知识的过程。...以上内容是数据挖掘课程中可能遇到的关键知识点,对于准备这门课程的学生来说,理解和掌握这些概念是至关重要的。
在数据挖掘的过程中,可能遇到的数据大小、数据类型、分析目标和分析工具等各种问题,都是数据挖掘领域需要解决的技术挑战。 R语言是一种自由、开源的编程语言和软件环境,专门用于统计计算和图形表示。R语言在数据...
在构建银行CRM系统时,会遇到一系列挑战,包括模型设计的准确性、数据抽取的有效性、系统的可扩展性和后期的维护优化等。这些问题直接影响到CRM系统的效能和客户体验,需要通过精细化管理和技术创新来解决。 ### ...
数据挖掘是信息技术领域中的一项重要技术,主要用于从海量数据中提取出有价值的知识和模式。大工20秋《数据挖掘》大作业旨在让学生深入理解并实践数据挖掘的基本方法,特别是KNN(K-Nearest Neighbor)算法。KNN是一...
实验要求学生不仅要完成实验项目,还要记录实验中遇到的问题、解决方法和实验过程,并绘制出模拟实验案例的数据仓库模型,最后根据实验情况撰写实验报告。 实验平台使用的是Microsoft SQL Server 2000的Analysis ...
这篇文章详细探讨了在大数据时代背景下,数据挖掘作为一门重要技术领域的重要性和发展趋势,以及如何在教学中应用R语言来帮助学生理解和掌握数据挖掘的关键技术和方法。以下是从文档中提取的关键知识点: 1. 数据...
6. **课后答案**:压缩包中的"数据挖掘概念与技术第二版和第三版(包含课后答案)"可能是教材的配套练习,涵盖了各个章节的关键概念和算法的实例解析,有助于巩固学习效果,解答可能遇到的问题。 综上所述,这份...
数据挖掘之神经网络分析实验报告.pdf 本实验报告介绍了使用SQL Server 2008和Analysis Services对Pima Indians Diabetes数据集进行神经网络分析的步骤。实验的目的是使用神经网络技术对糖尿病诊断进行数据挖掘分析...
在大数据背景下,CRM系统设计与数据挖掘技术的结合已成为提升企业客户关系管理能力的关键。本研究通过数据挖掘技术在CRM系统中的应用,旨在改进并加强客户数据的分析,从而更好地理解客户需求,预测客户行为,并对...
数据挖掘课程资料主要涵盖了解析大型、复杂且信息丰富的数据集的重要性,以及数据挖掘过程的目标、主要任务和技术来源。在本课程中,学生将学习到数据挖掘过程的互动性质及其基本步骤,理解数据质量对挖掘过程的影响...
数据仓库与大数据挖掘是现代商业智能的关键组成部分,它们帮助企业从海量数据中提取有价值的信息,以支持决策制定。本文档详细介绍了大数据仓库的设计与数据挖掘的操作流程。 首先,数据仓库是集成来自多个源的非易...
传统检测方法在这种情况下会遇到多中心数据问题,导致重复聚类,使得数据分类出现错误,影响数据检测的准确性。 为了解决上述问题,作者提出了一种基于蚁群聚类优化方法的数据检测方法。该方法通过构建电力数据仓库...
4. **系统整合**:在不同的操作系统和网络硬件环境下,多个系统之间的整合会遇到很多技术难题。 针对上述问题,企业可以采取以下对策: 1. **加强数据隐私保护意识**:建立健全的数据保护机制,确保所有操作都在...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了...通过韩家伟教授的课件,学生不仅可以掌握数据挖掘的基本理论和技术,还能了解到实际应用中可能遇到的问题及解决策略,为未来的数据分析工作打下坚实基础。
数据挖掘是一种从海量数据中发现有价值知识的技术,它结合了计算机科学、...在实践中,你可能会遇到如内存限制、计算时间过长等问题,这些都是数据挖掘领域常见的挑战,通过解决这些问题,你的技术能力将得到显著提升。
数据挖掘开发框架,如标题所示,是一个用于数据挖掘任务的软件框架,主要由社区开发者共同构建和维护。这种框架的特点是它并非由大型专业公司研发,而是由全球各地的程序员和爱好者通过开源的方式进行协作和改进。这...