`
ahuaxuan
  • 浏览: 641580 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
阅读更多
5月份,我又有一个新的挖掘任务,就是根据历史销售记录来分析将来的销售情况。所以需要预先研究一下这个方面的挖掘,以下是我的学习笔记。

预测型知识挖掘:
顾名思义就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。
从上面一句话中的历史,当前,未来三个关键字,我们可以看出时间概念在这次挖掘中将会起到非常重要的作用。 从预测的主要功能上来看,主要是对未来数据的分类和趋势的输出。

统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值(这个应该就是我要的功能)

预测型知识的挖掘可以借助于经典的统计方法,神经网络和机器学习技术。

一般来说常见的预测应用模型由如下4种:

1, 趋势预测模型
针对那些具有时序性的数据,比如销售记录,股票价格,发现长期的趋势变化。有许多来自于统计学的方法经过改造可以用于数据挖掘中,如基于n阶移动平均值,n阶加权(加权,又是加权,加权无处不在)移动平均值。还有一些研究较早的,比如分类(分类的方法太多了,之前我在文本分类中使用的是vsm,在这些纯数据的挖掘中,象bayes,decision等方法应该能比较有效果),关联规则等技术也被应用到趋势预测中。

2, 周期分析模式
主要是针对那些数据分布和时间依赖性很强的数据进行周期模式的挖掘。例如,服装在某个季节或所有季节的销售周期。近年来这方面的研究备受注目,有比如快速傅立叶变换等统计方法及其改造算法。看来我要着重研究这个周期分析模式。

3, 序列模式
主要针对历史事情发生的次序的分析形成预测模式来对未来行为进行预测。例如,预测“3年前购买计算机的客户有很大的概率会购买数字相机”。我怎么就觉得这个和推荐算法有千丝万缕的联系呢。

4, 神经网络
在预测型知识挖掘中,神经网络也是很有用的一个模式结构。我一直觉得这个是最玄的一个东东,目前我也没有对它进行什么深入的研究。

通过以上的一些权衡,我觉得周期分析模式应该是我这次任务的主攻方向,希望我能圆满完成任务。

分享到:
评论
2 楼 ahuaxuan 2008-05-09  
一旦数据挖掘和复杂的业务逻辑参合在一起,眼前的一切就都变得那么得的不清晰了,太复杂了
1 楼 ahuaxuan 2008-04-22  
今天上网查资料的时候发现的一段话,摘录过来
引用
OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有
什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、
和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然
后用OLAP检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么
原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也
低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看
那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行
下去,直到找到他想要的结果或放弃。
也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些
假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。
但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设
将是一件非常困难和痛苦的事情。
数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)
的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比
如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘
工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一
些分析师从来没有想过或试过的其他因素,比如年龄。
数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,
你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP
工具能回答你的这些问题。
而且在知识发现的早期阶段,OLAP工具还有其他一些用途。可以帮你探索数据,
找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这
都能帮你更好的理解你的数据,加快知识发现的过程。

相关推荐

    1数据挖掘基本概念_知识表示_toneqqq_数据挖掘_

    分类是预测型挖掘,通过学习已知类别的数据建立模型,用于新实例的分类。聚类则是无监督学习,将数据集分成不同的组或类别,使得组内成员相似度高,组间差异大。关联规则学习寻找项集之间的频繁模式,如“购买了A的...

    数据挖掘档案管理应用研究.docx

    预测型挖掘则侧重于根据历史数据预测未来趋势。在档案管理中,分类技术用于划分档案类别,相关规则分析用于发现档案间的关联,粗糙集则用于处理数据的不精确性和不确定性,提高信息处理的效率和准确性。 在档案管理...

    基于数据挖掘的2型糖尿病风险预测模型的建立和应用.pdf

    本文介绍了一项基于数据挖掘技术构建的2型糖尿病风险预测模型的研究,旨在通过分析大量患者数据,找出2型糖尿病的潜在风险因素,并建立起能够准确预测疾病风险的模型。 在介绍文章之前,首先要了解数据挖掘的基本...

    基于云计算的物联网数据挖掘模式.pdf

    描述型挖掘着重于对数据的简单描述,而预测型挖掘则强调利用数据建立模型以进行预测。数据挖掘系统设计时,应注重算法模块的扩展性,以适应数据量不断增长的趋势。 数据集模块也是重要的组成部分,它的构建将直接...

    使用数据挖掘技术对心脏病的早期预测-研究论文

    我们使用了三种流行的数据挖掘算法CART(分类和回归树),ID3(迭代二分法3)和从决策树或基于规则的分类器中提取的决策表(DT),以使用大型数据集开发预测模型。 我们还使用了10倍交叉验证方法来衡量无偏估计。

    智能预测型应用.pptx

    3. 数据挖掘技术:智能预测型应用使用数据挖掘技术来了解用户的固定行为和喜好,从而提供相关信息。 智能预测型应用的优点可以总结为以下几点: 1. 提高用户体验:智能预测型应用可以根据用户的需求,提供相关信息...

    Python数据挖掘与机器学习开发实战_基于线性回归的股票预测_优秀案例实例源代码源码.zip

    在Python数据挖掘与机器学习领域,线性回归是一种基础但重要的预测模型,尤其在金融行业中,如股票市场预测,它的应用十分广泛。本项目通过实际的案例,详细讲解了如何运用线性回归来预测股票价格,帮助我们理解并...

    Mellon银行预测数据挖掘前景光明

    其次,数据挖掘在风险管理中的应用体现在欺诈检测和违约预测上。银行可以使用Intelligent Miner来识别异常交易模式,及时发现潜在的欺诈行为,增强风险防控能力。同时,该工具也能预测未来的信用风险,帮助银行做出...

    基于数据挖掘的海关风险分类预测模型研究.pdf

    数据挖掘可以分为预测型和描述型两大类任务。预测型任务关注的是根据已有数据预测未来情况,如分类和回归分析。描述型任务则是探寻数据中的潜在联系,例如聚类分析、关联分析和序列模式挖掘。海关风险分类预测模型...

    精品版基于MATLAB R语言 SAS SPSS软件的 数据分析与挖掘实战 完整课程PPT课件 第8章 (共37页)实战 实例:中医证型的关联规则挖掘.pptx

    《MATLAB 数据分析与挖掘实战》第八章的内容主要聚焦于利用数据分析与挖掘技术,特别是关联规则算法,来研究中医证型与乳腺癌的关系。中医证型是中医理论中对疾病状态的一种综合判断,它反映了人体内气血、阴阳、...

    中医证型关联规则挖掘_python_中医_

    中医证型关联规则挖掘是利用数据挖掘技术在中医领域中探寻疾病与中医证型之间内在联系的一种方法。...同时,这种方法也可以应用于其他领域,如药品推荐、疾病预测等,展示了数据挖掘在医疗健康领域的广泛应用价值。

    基于数据挖掘的大型企业人力资源需求预测研究.pdf

    在数据挖掘领域,特别是针对大型企业的人力资源需求预测,本文提出了一种基于数据挖掘的多因素人力资源需求预测方法。该方法以数据挖掘技术为基础,通过分析企业内外部环境因素,来发现企业人力资源需求与影响因素间...

    中医证型关联规则挖掘Python源码.rar

    中医证型关联规则挖掘Python源码 数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。概念描述算法使用此分析的结果来定义用于...

    智能电网中电力负荷短期预测数据挖掘模型.pdf

    在智能电网中,数据挖掘技术主要用于发现数据之间的关联性和模式,用于短期电力负荷的预测,这种预测对于电网的稳定和效率具有重要意义。 传统上,电力负荷预测主要依赖于时间序列法等经典负荷预测方法。然而,这些...

    矿集区地学大数据挖掘与3D4D 建模在深部资源预测与评价中的示范研究进展.pdf

    矿集区地学大数据挖掘与3D/4D建模在深部资源预测与评价中的示范研究进展 本研究阐述了矿集区地学大数据挖掘与3D/4D建模在深部资源预测与评价中的示范研究进展。随着地质高精度观测技术、地球化学微区原位可视化和...

    复杂属性环境非关系型分布式大数据挖掘仿真.pdf

    文章《复杂属性环境非关系型分布式大数据挖掘仿真》中,作者邹静昭、赵宁、卢翠荣、武琳提出了针对复杂属性环境的大数据挖掘算法,旨在提高对非关系型数据的处理效率,挖掘出隐藏在大数据中的信息和价值。...

    基于信用评分和数据挖掘对商业贷款违约情况的预测方法研究.pdf

    本文主要围绕金融领域中的商业贷款违约预测问题,探讨了如何利用信用评分和数据挖掘技术来解决这一问题,并提出了相应的研究方法和结论。基于信贷管理和风险控制的需求,研究了信用评分模型在预测商业贷款违约情况中...

    数据挖掘技术在2型糖尿病风险评估模型中的应用.pdf

    本文聚焦于数据挖掘技术在构建2型糖尿病(Type 2 Diabetes Mellitus,T2DM)风险评估模型中的应用,探讨了决策树算法、人工神经网络(Artificial Neural Network,ANN)、回归预测法和支持向量机(Support Vector ...

Global site tag (gtag.js) - Google Analytics