5月份,我又有一个新的挖掘任务,就是根据历史销售记录来分析将来的销售情况。所以需要预先研究一下这个方面的挖掘,以下是我的学习笔记。
预测型知识挖掘:
顾名思义就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。
从上面一句话中的历史,当前,未来三个关键字,我们可以看出时间概念在这次挖掘中将会起到非常重要的作用。 从预测的主要功能上来看,主要是对未来数据的分类和趋势的输出。
统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值(这个应该就是我要的功能)
预测型知识的挖掘可以借助于经典的统计方法,神经网络和机器学习技术。
一般来说常见的预测应用模型由如下4种:
1, 趋势预测模型
针对那些具有时序性的数据,比如销售记录,股票价格,发现长期的趋势变化。有许多来自于统计学的方法经过改造可以用于数据挖掘中,如基于n阶移动平均值,n阶加权(加权,又是加权,加权无处不在)移动平均值。还有一些研究较早的,比如分类(分类的方法太多了,之前我在文本分类中使用的是vsm,在这些纯数据的挖掘中,象bayes,decision等方法应该能比较有效果),关联规则等技术也被应用到趋势预测中。
2, 周期分析模式
主要是针对那些数据分布和时间依赖性很强的数据进行周期模式的挖掘。例如,服装在某个季节或所有季节的销售周期。近年来这方面的研究备受注目,有比如快速傅立叶变换等统计方法及其改造算法。看来我要着重研究这个周期分析模式。
3, 序列模式
主要针对历史事情发生的次序的分析形成预测模式来对未来行为进行预测。例如,预测“3年前购买计算机的客户有很大的概率会购买数字相机”。我怎么就觉得这个和推荐算法有千丝万缕的联系呢。
4, 神经网络
在预测型知识挖掘中,神经网络也是很有用的一个模式结构。我一直觉得这个是最玄的一个东东,目前我也没有对它进行什么深入的研究。
通过以上的一些权衡,我觉得周期分析模式应该是我这次任务的主攻方向,希望我能圆满完成任务。
分享到:
相关推荐
分类是预测型挖掘,通过学习已知类别的数据建立模型,用于新实例的分类。聚类则是无监督学习,将数据集分成不同的组或类别,使得组内成员相似度高,组间差异大。关联规则学习寻找项集之间的频繁模式,如“购买了A的...
预测型挖掘则侧重于根据历史数据预测未来趋势。在档案管理中,分类技术用于划分档案类别,相关规则分析用于发现档案间的关联,粗糙集则用于处理数据的不精确性和不确定性,提高信息处理的效率和准确性。 在档案管理...
本文介绍了一项基于数据挖掘技术构建的2型糖尿病风险预测模型的研究,旨在通过分析大量患者数据,找出2型糖尿病的潜在风险因素,并建立起能够准确预测疾病风险的模型。 在介绍文章之前,首先要了解数据挖掘的基本...
描述型挖掘着重于对数据的简单描述,而预测型挖掘则强调利用数据建立模型以进行预测。数据挖掘系统设计时,应注重算法模块的扩展性,以适应数据量不断增长的趋势。 数据集模块也是重要的组成部分,它的构建将直接...
我们使用了三种流行的数据挖掘算法CART(分类和回归树),ID3(迭代二分法3)和从决策树或基于规则的分类器中提取的决策表(DT),以使用大型数据集开发预测模型。 我们还使用了10倍交叉验证方法来衡量无偏估计。
3. 数据挖掘技术:智能预测型应用使用数据挖掘技术来了解用户的固定行为和喜好,从而提供相关信息。 智能预测型应用的优点可以总结为以下几点: 1. 提高用户体验:智能预测型应用可以根据用户的需求,提供相关信息...
在Python数据挖掘与机器学习领域,线性回归是一种基础但重要的预测模型,尤其在金融行业中,如股票市场预测,它的应用十分广泛。本项目通过实际的案例,详细讲解了如何运用线性回归来预测股票价格,帮助我们理解并...
其次,数据挖掘在风险管理中的应用体现在欺诈检测和违约预测上。银行可以使用Intelligent Miner来识别异常交易模式,及时发现潜在的欺诈行为,增强风险防控能力。同时,该工具也能预测未来的信用风险,帮助银行做出...
数据挖掘可以分为预测型和描述型两大类任务。预测型任务关注的是根据已有数据预测未来情况,如分类和回归分析。描述型任务则是探寻数据中的潜在联系,例如聚类分析、关联分析和序列模式挖掘。海关风险分类预测模型...
《MATLAB 数据分析与挖掘实战》第八章的内容主要聚焦于利用数据分析与挖掘技术,特别是关联规则算法,来研究中医证型与乳腺癌的关系。中医证型是中医理论中对疾病状态的一种综合判断,它反映了人体内气血、阴阳、...
中医证型关联规则挖掘是利用数据挖掘技术在中医领域中探寻疾病与中医证型之间内在联系的一种方法。...同时,这种方法也可以应用于其他领域,如药品推荐、疾病预测等,展示了数据挖掘在医疗健康领域的广泛应用价值。
在数据挖掘领域,特别是针对大型企业的人力资源需求预测,本文提出了一种基于数据挖掘的多因素人力资源需求预测方法。该方法以数据挖掘技术为基础,通过分析企业内外部环境因素,来发现企业人力资源需求与影响因素间...
中医证型关联规则挖掘Python源码 数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。概念描述算法使用此分析的结果来定义用于...
在智能电网中,数据挖掘技术主要用于发现数据之间的关联性和模式,用于短期电力负荷的预测,这种预测对于电网的稳定和效率具有重要意义。 传统上,电力负荷预测主要依赖于时间序列法等经典负荷预测方法。然而,这些...
矿集区地学大数据挖掘与3D/4D建模在深部资源预测与评价中的示范研究进展 本研究阐述了矿集区地学大数据挖掘与3D/4D建模在深部资源预测与评价中的示范研究进展。随着地质高精度观测技术、地球化学微区原位可视化和...
文章《复杂属性环境非关系型分布式大数据挖掘仿真》中,作者邹静昭、赵宁、卢翠荣、武琳提出了针对复杂属性环境的大数据挖掘算法,旨在提高对非关系型数据的处理效率,挖掘出隐藏在大数据中的信息和价值。...
本文主要围绕金融领域中的商业贷款违约预测问题,探讨了如何利用信用评分和数据挖掘技术来解决这一问题,并提出了相应的研究方法和结论。基于信贷管理和风险控制的需求,研究了信用评分模型在预测商业贷款违约情况中...
本文聚焦于数据挖掘技术在构建2型糖尿病(Type 2 Diabetes Mellitus,T2DM)风险评估模型中的应用,探讨了决策树算法、人工神经网络(Artificial Neural Network,ANN)、回归预测法和支持向量机(Support Vector ...