2007年1月12日
今天去探访了一家航空货运客户,了解了一些需求,是一个很标准的数据仓库项目。现有的面包黄油系统(业务系统)有很多,foc,icargo,xx等等,现在他们做统计、预算要用到一批报表,报表的数据源都是手工从各个系统的查询界面抓取到excel里面,然后再把excel手工制作成报表的样子。
好一个恶梦般的报表制作过程啊,数据仓库正是为了解决这个恶梦而产生的。但是老板今天没有着重介绍关于数据仓库的东西,而是引导他们认识“模型”这个东西,我想原因大概有两个:
1)挖掘更多的需求。
他们手工制作那批报表是几个小姑娘在做,客户“低估”了小姑娘的价值,也同时低估了这个系统的价值,只有挖出更多的需求才能赚钱。
2)推出关键竞争力:模型
一起来竞争这个项目还有两家公司,我们只是候选人之一,所以得有有竞争力的东西拿上台面来。老板选择了“模型”,这个竞争力刚在前不久的一个项目中胜出了,那家客户对老板提出的模型很感兴趣,所以选择了我们。
那什么是“模型”?
例子就是今天提到油价对他们成本的影响,他们估计油价占成本的50%左右,而且油价非常不稳定,所以导致收益也跟着波动,于是这里的模型就是收益随油价波动的一个相关曲线,继而可以设定油价预警线,在这个油价的时候收益可能只有5%,所以需要预警了,这个是只有一个油价因素的简单模型,实际情况得加入货物重量,飞行时间,维修费用等等因素建立一个互相制约的模型,进而可以根据某几个因素的变动从而对其他因素作出调整以达到收益最大化。
这个idea看起来很诱人,先不管它,再来看看数据挖掘中是怎么对模型作出定义和解释的。
很不幸,在data mining中他们不叫做模型,而是叫做模式(pattern),不过还好,名字不同,意义相通。
DM的功能就是:指定的DM任务中要找的模式,DM任务又分为描述(descriptive)和预测(predictive),那dm就是指定描述和预测的模式。也是说模式是dm的一个目标,模式经过评估和表示后就是知识,dm这个知识发现过程(kdd)也就结束了。
模式包括
1)概念/类描述:特征化和区分
比如顾客的概念包括:bigSpenders和bugetSpenders,这两个名词就是一个概念,每个概念都有它自己的特征,这就是特征化,每个概念都有用来区分和其他概念不同的东西,这个就是区分。
dm找到这种模式可以做什么?比如特征化后发现购买国产mp3的顾客都是bugetSpender,比如象我。
2)关联分析(association analysis)
关联分析就是发现关联规则(association rule)
关联规则是形如 X=>Y 的东西,即 A1C A2^ ...^Am => B1^ B2^ ... ^Bn 这种形式,其中Ai(i属于[1,m]) Bj(j属于[1,n])是属性-值对(attribute-value pairs),X=>Y 解释为:“满足X中的条件的数据多半也满足Y中条件”
比如:age(x,20...29) ^ income(x,20k...29k) => buys(x,"ipod") [support=2%,confidence=60%]
//support是支持度,就是所有数据中符合这条规则的数据占比
//confidence是置信度,就是满足规则左边条件的客户60%的可能买ipod.我买的是meizu的,但是不属于那另外的40%,-_-
最近在做规则评分的项目,用上了jboss rules (drools),这条规则用drools的drl语法就是:
When
c:Customer(20<=age,age<=29 , 20000<=income,income<=29000)
then
c.buys(new Mp3("ipod"));
drools里面的规则的置信度都是100%的 -_-
dm中把以上属性或谓词(predicate,例如buys这个动作)称之为纬度,于是上面这条规则就是多维关联规则(multidimensional association rule)了,好拉风的名词。
3)分类(classification)和预测(prediction)
分类和前面的“类描述”很容易混淆。
分类是:找出描述并区分数据类或概念的模型(model)或函数,以便能用模型预测类标记为未知的对象类。
导出模型(derived model)是基于训练数据(training data,就是已知数据)的分析,它可以用多种形式来表达,比如分类(if-then)规则,判定树(decision trees),数学公式,神经网络(neural networks)
分类可以用来预测数据对象的类标记,当被预测的值是数值数据时,通常称之为预测。
4)聚类分析(clustering analysis)
过程:本着最大化类内的相似性,最小话类间的相似性的原则进行聚类或分组
5)孤立点分析
孤立点(outlier):和一般的不一样的那些家伙。在一些应用中,比如欺诈分析,罕见的事情反而更有趣。孤立点分析也成为孤立点挖掘(outlier mining)
6)演变分析(evolution analysis)
描述行为随时间变化的规律和趋势,并对其建模。这个在计量经济学里面专门有时间序列分析来整。
OK,就这些了,了解了这些模式对数据挖掘也就有了一个大概的了解了,因为dm也有人称之为模式分析,大致的过程就是发现上面这些模式或者运用这些模式,还不一定全用上。
回到今天俺老板力推的模型,实际上就是一个关联分析,这个我在学计量经济学的时候还整了个关于各种电脑配件价格和一些市场因素的关联小模型来忽悠过老师,不过建立一个收益、成本因素的关联模型来给客户就不是那么好忽悠了。关于忽悠,dm中也有介绍,就是模式是不是有趣(interesting)的。怎么衡量是否有趣呢,有两个比较重要的指标,就是前面提到的confidence和support.
这次客户对我们的idea的评价是很有意思,看起来也就是很有趣了,不过只有建立模型并找到模式才能知道他们的confidence和support是多少了,希望是真正的有趣。
分享到:
- 2007-01-15 09:23
- 浏览 4265
- 评论(2)
- 论坛回复 / 浏览 (2 / 5309)
- 查看更多
相关推荐
基于数据挖掘技术的电动汽车负荷短期组合预测模型 本文研究了基于数据挖掘技术的电动汽车负荷短期组合预测模型,以解决电动汽车负荷预测的问题。文章首先回顾了电动汽车发展历程和发展现状,总结了负荷预测的常用...
1. 数据挖掘的定义和应用前景:数据挖掘是指从大量数据中挖掘出有价值的信息和模式,以便于决策和预测。数据挖掘的应用前景非常广泛,包括信用评分、客户分类、推荐系统、异常检测等。 2. 逻辑回归的概念和应用:...
数据挖掘课程设计主要聚焦于利用各种技术和方法从大量的图书馆系统数据中发现有价值的模式、趋势和关联,以支持决策制定和优化服务。在这个项目中,学生可能会接触到一系列工具和技术,包括SSIS(SQL Server ...
本文探讨了用户访问模式中数据挖掘的模型与算法,重点介绍了E-OEM模型,并就其在用户访问模式数据挖掘中的应用进行了详细的研究。 E-OEM模型是一种扩展的面向对象的事件模型,它结合了页面拓扑结构、服务器应用逻辑...
2. **空间数据模型**:介绍空间数据的表示方式,如矢量数据模型和栅格数据模型,及其优缺点。 3. **空间统计与地理信息系统(GIS)**:讲解如何利用统计方法和GIS软件进行空间数据分析。 4. **空间数据挖掘算法**:...
关于SAS-Weblogic的数据挖掘模型的应用分析.pdf
在数据挖掘技术的应用中,商业银行可以使用各种数据挖掘算法和模型,以挖掘出隐藏在数据中的有价值信息。数据挖掘技术可以帮助商业银行更好地了解客户的需求和行为,从而提高客户服务质量。 此外,数据挖掘技术还...
头文件包含关于模型的元数据信息,数据模式描述输入数据的结构,数据挖掘模式则与模型的训练数据相关,而预言模型模式和定义则涵盖了模型的算法细节和预测过程。此外,PMML 还支持模型选择、模型平均和分布式学习等...
数据挖掘是指从大量数据中发现模式和知识的过程。随着计算机技术的发展和广泛应用,每天都会产生大量的数据。数据挖掘技术可以帮助我们在这些海量数据中寻找有价值的信息,从而为企业决策提供支持。 ##### 2.2 数据...
11. **移动对象轨迹数据挖掘方法研究** - 研究如何从GPS等移动设备数据中发现模式和行为。 12. **基于数据挖掘的成本管理方法研究** - 用数据挖掘改进企业成本控制和绩效评估。 13. **基于数据挖掘技术的财务风险...
数据挖掘是一种从海量数据中提取有价值信息的过程,它利用统计学、机器学习和人工智能等技术,揭示隐藏在数据中的模式、关联和趋势。在IT领域,数据挖掘是数据分析的重要组成部分,广泛应用于商业智能、市场预测、...
B001-吴海明-基于数据挖掘技术的市财政收入分析预测模型.pdfB001-吴海明-基于数据挖掘技术的市财政收入分析预测模型.pdf
数据挖掘数据仓库构架的拓展.caj 数据挖掘方法的研究.caj 数据挖掘方法的评述.caj 数据挖掘的软分类方法.caj 数据挖掘管理系统.caj 数据挖掘系统的一种实现策略.caj 数据挖掘系统设计.caj 文本挖掘、数据挖掘和知识...
"人工智能-数据挖掘-结构方程模型及在顾客满意度数据挖掘中的应用研究" 人工智能-数据挖掘-结构方程模型是当今数据分析领域中的热点话题。结构方程模型(Structural Equation Modeling,简称SEM)是一种基于统计...
文章中还提到了模式识别技术,该技术是数据挖掘中的一个重要分支,它通过识别数据中的模式来实现对数据的分类和预测。在服务企业诊断信息智能采集模型中,模式识别技术可用于发现企业数据中的潜在问题和机会,为诊断...
B012-陈凯东- 基于数据挖掘技术的市财政收入分析预测模型.pdfB012-陈凯东- 基于数据挖掘技术的市财政收入分析预测模型.pdf
这些数据属性之间可能存在相关关系,因此需要运用数据挖掘中的约简算法来提取关键影响属性,并对属性进行整合,形成少数关键指标,以简化模型并提高预警效果。 4. 流失客户的特征挖掘 特征挖掘是指通过分析客户的...
数据挖掘,顾名思义,是从海量数据中提取有价值信息的过程,它结合了统计学、机器学习和数据库管理等多个领域的知识,旨在发现隐藏的模式、规律和关联,从而帮助决策者做出更准确的预测。 在天气预报中,数据挖掘...
金融数据挖掘是从海量金融数据中发现有价值信息的过程,它通过运用机器学习算法,揭示隐藏在数据背后的模式和规律,为金融机构提供决策支持。在这个压缩包中,我们能够接触到金融市场的交易数据、公司财务报告、宏观...