呵呵,前几天拿到了数据挖掘基础教程一书,感觉部分算法是基于统计学的原理的,而统计学是可以通过 Oracle 来实现。
其次是为了观看德国 vs 西班牙的世界杯比赛,来了一点小小的兴致,动手写点小脚本。不过本文只是为了实现而实现的,没有做 任何优化,有兴趣的话,大家可以玩一玩。
关于数据挖掘关联规则的材料,可以参见:
http://baike.baidu.com/view/1076817.htm?fr=ala0_1
关联规则是形如 X → Y 的蕴涵式,
其中且, X 和 Y 分别称为关联规则的先导 (antecedent 或 left-hand-side, LHS) 和后继 (consequent 或 right-hand-side, RHS) 。
关联规则在 D 中的支持度 (support) 是 D 中事务同时包含 X 、 Y 的百分比,即概率; =X^Y/D
置信度 (confidence) 是包含 X 的事务中同时又包含 Y 的百分比,即条件概率。 =(X^Y)/X
关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。
若给定最小支持度α = n ,最小置信度β = m ,则分别通过以上的 X^Y/D 和 (X^Y)/X ,可获知是否存在关联
使用的原始数据
反范式后的数据
待统计项
-- 创建各个购买单元项视图
create view distinct_trans as select distinct tranobject from purchase;
-- 创建各个事务内部的购买单元项
create view all_trans as
-- 可以用 wm_concat 函数
SELECT tranid,MAX(tranobjects) tranobjects
FROM (select tranid,WMSYS.WM_CONCAT(tranobject) OVER(PARTITION BY tranid ORDER BY tranobject) tranobjects
from purchase
)
group by tranid;
-- 也可以用 sys_connect_by_path 函数
create view all_trans as
select tranid,substr(tranobjects,2) tranobjects from -- 格式化前面的逗号和空格
(
select distinct tranid,FIRST_VALUE(tranobjects) OVER(PARTITION BY tranid ORDER BY levels desc ) AS tranobjects -- 保留最大的那个
from
(
select tranid,sys_connect_by_path(tranobject,',') tranobjects,level levels -- 各购买事务的内部排列组合
from purchase
connect by tranid=prior tranid and tranobject<prior tranobject
)
);
-- 对所有购买单元项进行排列组合,即数据挖掘的 X^Y 项
create view all_zuhe as
select substr(sys_connect_by_path(tranobject,','),2) zuhe
from (select distinct tranobject from purchase)
connect by nocycle tranobject<prior tranobject;
select * from all_zuhe
-- 筛选出符合要求的排列组合,即数据挖掘的 X 项和 Y 项
create view full_zuhe as
select a.zuhe X,b.zuhe Y from all_zuhe a,all_zuhe b
where instr(a.zuhe,b.zuhe)=0 and instr(b.zuhe,a.zuhe)=0
and not exists(select 1 from distinct_trans c
where instr(a.zuhe,c.tranobject)>0 and instr(b.zuhe,c.tranobject)>0)
select * from full_zuhe
create or replace view tongji as
select xy,xy_total,x,x_total,y,y_total,transtotal from
(
select y||','||x xy,
(select count(*) from all_trans a where instr(a.tranobjects,c.x||','||c.y)>0 or instr(a.tranobjects,c.y||','||c.x)>0) xy_total, -- 包含 xy 的事务数
y,
(select count(*) from all_trans b where instr(b.tranobjects,c.y)>0) y_total, -- 包含 y 的事务数
x,
(select count(*) from all_trans b where instr(b.tranobjects,c.x)>0) x_total, -- 包含 x 的事务数
d.transtotal -- 总事务数
from full_zuhe c,(select count(distinct tranid) transtotal from purchase) d
order by xy_total desc,x_total desc
)
select * from tongji where xy_total>=3 and y_total>=3
分享到:
相关推荐
一种改进的自适应短时傅里叶变方法-基于梯度下降 算法运行环境为Jupyter Notebook,执行一种改进的自适应短时傅里叶变方法-基于梯度下降,附带参考。 算法可迁移至金融时间序列,地震 微震信号,机械振动信号,声发射信号,电压 电流信号,语音信号,声信号,生理信号(ECG,EEG,EMG)等信号。 sr = 1e4 t = torch.arange(0, 2.5, 1 sr) f = torch.sin(2*pi*t) * 1e2 + 1e2 * torch.ones_like(t) + 5e1 * t x = (torch.sin(torch.cumsum(f, dim=0) 2e2) + 0.1 *torch.randn(t.shape))[None, :] x += torch.sin(torch.cumsum(1e2*5 * torch.ones_like(t), dim=0) 2e2) x = x.to(device) print(x.shape) plt.plot(f)
源码 一个Java GUI 图书借阅系统源码. 一个Java GUI 图书借阅系统源码.
螺旋藻过滤机sw21可编辑全套技术资料100%好用.zip
【java】基于java+SSM-考试系统
【python设计模式】大话设计模式python实现
内容概要:本文详细介绍了太原理工大学围绕JavaEE技术栈展开的一系列实践项目。首先介绍了校内课程实践项目,比如学生信息管理系统和校园在线选课系统,旨在让学生熟悉分层架构开发模式及其各层次的具体技术应用(如Servlet、Spring、MyBatis),从而掌握前后端交互的基本流程及数据存取方式。其次针对更高阶的学习目标提到学科竞赛类项目如 ACM 国际大学生程序设计竞赛项目和中国大学生计算机设计大赛项目,鼓励学生挑战算法实现与优化,同时培养他们的创新能力和服务意识。最后着眼于提升学生的就业竞争力阐述了校企合作项目的具体内容,强调在真实的工作环境中积累经验的重要性,包括参与企业级Web应用程序开发以及大数据分析和可视化的平台建设等方面。 适合人群:面向高等院校计算机专业的大三及以上年级的学生或是有兴趣深入了解JavaEE并在实践中成长的学习者。 使用场景及目标:①通过具体案例让读者深刻体会从理论学习转向实际动手制作的过程;②为参加编程赛事提供灵感和支持;③加强学校与行业的对接,使在校生能提前适应职场的要求。 其他说明:以上实践项目的设置反映了当前互联网行业的最新动态和技术趋势,既有利于学生个人发展也为社会输送更多优秀的IT人才做出了贡献。
【课程设计】TensorRT部署DETR项目工程python源码.zip
【vue】基于vue开发的pad考试系统
【课程设计】基于百度飞桨paddle实现语音情感识别源码+项目说明.zip
资源说明: 1:csdn平台资源详情页的文档预览若发现'异常',属平台多文档混合解析和叠加展示风格,请放心使用。 2:32页图文详解文档(从零开始项目全套环境工具安装搭建调试运行部署,保姆级图文详解)。 3:34页范例参考毕业论文,万字长文,word文档,支持二次编辑。 4:27页范例参考答辩ppt,pptx格式,支持二次编辑。 5:工具环境、ppt参考模板、相关教程资源分享。 6:资源项目源码均已通过严格测试验证,保证能够正常运行,本项目仅用作交流学习参考,请切勿用于商业用途。 7:项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通。 内容概要: 本系统基于 B/S 网络结构,在 IDEA 中开发。服务端用 Java 并借 ssm 框架(Spring+SpringMVC+MyBatis)搭建后台。用 MySQL 存储数据,可靠性强。 能学到什么: 学会用ssm搭建后台,提升效率、专注业务。学习使用jsp、html构建交互界面、前后端数据交互、MySQL管理数据、从零开始环境搭建、调试、运行、打包、部署流程。
模型预测控制,燃料电池混动能量管理 编程平台matlab,.m文件 基于MPC的燃料电池混合动力系统能量管理策略,该程序是本人自己编写,程序没有任何问题,备注书写详细,可根据你的实际情况更你对应的工况便可以使用。 注意:1.本程序选择的目标函数考虑了动力系统的性能衰 ,可作为创新点 2.该程序预测部分框架可以改变,通过更精确的预测进行能量管理可作为另一个创新点 3.本程序以bp预测,另有lstm工具箱预测,可更 4.可以调节soc始末一致 6.可更任意工况运行
资源说明: 1:csdn平台资源详情页的文档预览若发现'异常',属平台多文档混合解析和叠加展示风格,请放心使用。 2:32页图文详解文档(从零开始项目全套环境工具安装搭建调试运行部署,保姆级图文详解)。 3:34页范例参考毕业论文,万字长文,word文档,支持二次编辑。 4:27页范例参考答辩ppt,pptx格式,支持二次编辑。 5:工具环境、ppt参考模板、相关教程资源分享。 6:资源项目源码均已通过严格测试验证,保证能够正常运行,本项目仅用作交流学习参考,请切勿用于商业用途。 7:项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通。 内容概要: 本系统基于 B/S 网络结构,在 IDEA 中开发。服务端用 Java 并借 ssm 框架(Spring+SpringMVC+MyBatis)搭建后台。用 MySQL 存储数据,可靠性强。 能学到什么: 学会用ssm搭建后台,提升效率、专注业务。学习使用jsp、html构建交互界面、前后端数据交互、MySQL管理数据、从零开始环境搭建、调试、运行、打包、部署流程。
【毕业设计】基于SpringBoot开发的酒店管理系统源码.zip
Matlab实现Attention-GRU多变量时间序列预测 1.Matlab实现Attention-GRU多变量时间序列预测(注意力机制融合门控循环单元,也可称呼TPA-GRU,时间注意力机制结合门控循环单元) 2.运行环境为Matlab2020b: 3.data为数据集,MainAttGRUNM.m为主程序,运行即可;其余m文件为子函数,无需运行,所有文件放在一个文件夹,赠送俩个Attention-GRU学习的文献: 4.运行需要GPU支持运算
【课程设计】基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据.zip
Enterprise Architect (简称EA) 是我们做软件设计及开发要使用的工具,它的功能非常多,有很多功能大家都不熟悉。在这里总结了一些比较高级的使用方法分享给大家。(比较基础的UML画图方法,在别的地方有很多介绍,本课程中不再详述)。本课程内容如下: EA可以做什么? 用EA编写和管理“需求” EA的Project Browser操作 EA项目的基本设计原则 元素的Name和Alias自动编号 创建测试用例的规范描述 建立和查看Traceability EA中增加一个Tag (Tagged Value) EA的Diagram操作 EA中创建Object对象的方法 EA中设置连线或元素的Stereotype
单线程爬虫-上线资源包
乐鑫ESP32-S3红外重复码值发送参考代码。虽然不是整个工程,但红外这一部分是全的,已经调通,能够正常发送红外重复码值。 乐鑫官方在红外发送重复码这一块存在空白,本代码填补了这一空白。给需要使用ESP32系列芯片的人直接提供了代码,无需再自行摸索,甚至无从下手。
台达DVP-20PM的追剪程序,同步运动,是用在卷纸管机上的 这份资料包括: 1、电气图纸一份 2、DVP-20PM的程序(有注释) 3、台达伺服的参数设置源文件(从台达B2伺服中导出) 4、说明书一份 该款卷纸切管机机械结构设计合理,使用钢结构机架和方通为主体,以2500P R高分辨率编码器检查送纸速度与送纸长度;采用一台台达高性能变频器驱动三台电机作为原材料上胶、三层纸的合理重叠卷纸,具有同步性能好、同步精度高等优势;采用三台台达B2系列16bit编码器分辨率伺服电机控制卷纸内芯轴装置、外辊轴装置、追剪装置,精度高、稳定性好、同步精度高等优势;并配备台达BOP-BO7S411触摸屏、台达DVP-20PM00M PLC ,等一系列台达产品,达到通讯建议,匹配度高,稳定性能好等效果。