数据挖掘是如何解决问题的
本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。2.1.1节中关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。
很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。
尿不湿和啤酒
超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世界上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?
为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长。
按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一有价值的规律的。
Target和怀孕预测指数
关于数据挖掘的应用,最近还有这样一个真实案例在数据挖掘和营销挖掘领域广为流传。
美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图2-1所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。
图2-1 Target怀孕预测指数示意图
Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。
如果不是在拥有海量的用户交易数据基础上实施数据挖掘,Target不可能做到如此精准的营销。我们将会在第10章具体分析Target的精准营销案例。
电子商务网站流量分析
网站流量分析,是指在获得网站访问量基本数据的情况下对有关数据进行的统计和分析,其常用手段就是Web挖掘。Web挖掘可以通过对流量的分析,帮助我们了解Web上的用户访问模式。那么了解用户访问模式有哪些好处呢?
— 在技术架构上,我们可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如辅助改进网络的拓扑设计,提高性能,在有高度相关性的节点之间安排快速有效的访问路径等。
— 帮助企业更好地设计网站主页和安排网页内容。
— 帮助企业改善市场营销决策,如把广告放在适当的Web页面上。
— 帮助企业更好地根据客户的兴趣来安排内容。
— 帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。
人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都被保存在网站日志中。从保存的信息来看,网站虽然拥有了大量的网站访客及其访问内容的信息,但拥有了这些信息却不等于能够充分利用这些信息。
那么如果将这些数据转换到数据仓库中呢?这些带有大量信息的数据借助数据仓库报告系统(一般称作在线分析处理系统),虽然能给出可直接观察到的和相对简单直接的信息,却也不能告诉网站其信息模式及怎样对其进行处理,而且它一般不能分析复杂信息。所以对于这些相对复杂的信息或是不那么直观的问题,我们就只能通过数据挖掘技术来解决,即通过机器学习算法,找到数据库中的隐含模式,报告结果或按照结果执行。
为了让电子商务网站能够充分应用数据挖掘技术,我们需要采集更加全面的数据,采集的数据越全面,分析就能越精准。在实际操作中,有以下几个方面的数据可以被采集:
— 访客的系统属性特征。比如所采用的操作系统、浏览器、域名和访问速度等。
— 访问特征。包括停留时间、点击的URL等。
— 条款特征。包括网络内容信息类型、内容分类和来访URL等。
— 产品特征。包括所访问的产品编号、产品目录、产品颜色、产品价格、产品利润、产品数量和特价等级等。
当访客访问该网站时,以上有关此访客的数据信息便会逐渐被积累起来,那么我们就可以通过这些积累而成的数据信息整理出与这个访客有关的信息以供网站使用。可以整理成型的信息大致可以分为以下几个方面:
— 访客的购买历史以及广告点击历史。
— 访客点击的超链接的历史信息。
— 访客的总链接机会(提供给访客的超级链接)。
— 访客总的访问时间。
— 访客所浏览的全部网页。
— 访客每次会话的产出利润。
— 访客每个月的访问次数及上一次的访问时间等。
— 访客对于商标总体正面或负面的评价。
本文节选自《New Internet:大数据挖掘》
谭磊 著
电子工业出版社出版
相关推荐
数据挖掘是一种从海量数据中提取有价值知识的过程,它主要针对四类核心问题:分类、聚类、关联和序列。这四类问题在信息技术和商业分析领域具有广泛应用。 1、分类问题: 分类问题属于预测性任务,但其目标是预测一...
总的来说,"常用数据挖掘数据集"提供了丰富的实践素材,无论是对初学者还是经验丰富的从业者来说,都是提升数据挖掘技能和解决问题的宝贵资源。通过深入研究这些数据集,我们可以更好地掌握数据挖掘技术,解决现实...
1. 数据挖掘的挑战:传统数据挖掘解决方案存在计算能力有限的问题,尤其在数据挖掘算法迭代复杂性方面表现得尤为明显。这导致难以从数据中发现关系和规则,进而无法根据现有数据预测未来的发展趋势。数据量规模的...
### 数据挖掘解决方案集锦 #### 一、太普软件及其数据挖掘应用研发 广州太普软件科技有限公司(简称“太普软件”),成立于2005年,位于广州高新技术开发区,是一家专注于基于云计算的海量数据挖掘应用研发、咨询...
用SQL Server2000构建数据挖掘解决方案.caj 信息技术在全球银行业的应用(六)——数据挖掘技术及其应用1.kdh 数据挖掘与电力系统 12.caj 数据挖掘中知识管理与表达系统的设计与实现.caj 数据挖掘及其在通信侦察信号...
### 数据分析与数据挖掘的基本概念 1. 数据分析(Data Analysis)是为了提取有用信息和形成结论,通过适当的统计分析方法对收集来的大量数据进行分析,以理解和消化数据集的过程。 2. 数据挖掘(Data Mining)是利用...
"SQL Server 2005数据挖掘与商业智能完全解决方案" 本书旨在为读者提供一个完整的商业智能解决方案,基于SQL Server 2005平台,涵盖数据挖掘、商业智能、数据仓库、OLAP等多个方面。 商业智能概述 商业智能...
数据挖掘是利用算法从大量数据中提取信息和发现模式的科学领域,它...如何有效地处理大规模数据集、如何在保证隐私的前提下进行数据挖掘,以及如何提高数据挖掘的实时性等,都是未来数据挖掘工具需要解决的关键问题。
这将帮助你在实际工作中更好地运用数据挖掘技术解决实际问题,无论是商业智能、金融风控、医疗诊断还是推荐系统等领域,都能受益匪浅。 总的来说,这个数据挖掘实例集合是一个宝贵的学习资源,它不仅包含了理论知识...
在IT领域,数据挖掘是一项关键的技术,它涉及从大量数据中发现有价值的信息和知识。Java作为一门广泛应用的编程语言,提供了...通过学习和实践这些算法,开发者可以提升数据分析能力,解决实际问题,创造更大的价值。
通过研究这个“数据挖掘项目源码”,你可以深入了解实际项目中数据挖掘的全貌,学习如何应用各种技术和工具解决实际问题,提升你在数据科学领域的专业技能。同时,源码也是学习和借鉴的最佳资源,可以帮助你避免从零...
3. 数据挖掘模型和算法:数据挖掘模型是指使用数据挖掘技术来解决实际问题的数学模型,而数据挖掘算法则是指实现数据挖掘模型的具体方法。常见的数据挖掘算法包括决策树、随机森林、支持向量机、神经网络等。 4. ...
在Web数据挖掘的过程中,数据异构问题是一个关键点,因为它直接影响到数据分析的质量和效果。 在解决Web数据挖掘中的数据异构问题上,XML(可扩展标记语言)是一种被广泛采用的技术。XML语言之所以能够适用于处理...
摘要近年来,伴随着空间信息获取...空间数据挖掘就是为了解决这一科学问题而 提出的。该文在回顾已有空间数据挖掘规则的基础上,指出了空间数据挖掘过程中存在的主要问题,进而探讨了未 来空间数据挖掘的主要研究方向。
这些问题涉及到数据挖掘的基本概念、方法和技术,以及在实际应用中的问题解决。 知识点1:关联规则发现 关联规则发现是一种常见的数据挖掘技术,它可以挖掘出数据中的关联关系。例如,在某超市的销售记录数据中,...
关系数据库系统中的简单数据模型已经不能满足这些需求,因此需要研究新的、有效的、表达能力强的数据模型来解决问题。 ### 多维数据模型 多维数据模型(Multidimensional Data Model)是针对数据仓库分析应用需求...
面临的挑战:数据安全与隐私保护、数据质量问题、技术门槛高以及法规制约等问题仍需解决。 3. 需求分析 挖掘对象与环境:报告分析了不同行业和领域对数据挖掘的需求,如商业智能、社交媒体分析、医疗健康等,同时...
论文可能介绍了如何构建这样的系统,以及其在实际问题解决中的应用。 以上各篇论文都展示了数据挖掘和机器学习在不同领域的广泛应用和潜力,对于研究人员和从业人员来说,是了解和提升这些技术的宝贵资源。
5. 数据挖掘的应用实例,展示如何在实际场景中运用这些技术解决问题。 了解数据挖掘的基本概念和应用是现代商业和科研中必不可少的技能,它可以帮助我们更好地理解和利用大数据,为决策提供有力的支持。随着技术的...