一、任务描述
工作中的一个数据批量任务,涉及到4张基本表和4张业务数据表。
基本表 (Basic Table) 数据量不大,每个表最多几百条记录;业务表 (Transaction Table) 数据量较大,每个表有几十万条记录。
以前的版本使用OO(O/R ?)方式,
(1) SQL查询数据库选出一个业务表的数据,每条记录映射为一个Object。
(2) 循环每个Object,根据属性 查询数据库,取出关联的表数据,映射为Object;依此类推,一步步取出相关数据Object。然后计算并生成结果数据。
这种方案,第一次取出的数据集很大,循环步数很多,而且每一步里面都要涉及到多次数据库查询,速度很慢,处理一个月的上万条数据,都需要几个小时。类似于
代码
- Select * from Transact_A where ….
- While(rs.next()){
- a.populate(rs);
-
- If(a…) {
- Select * from Transact_B where ….
- If( … ) select * from Basic_B where ….
- }else{
- Select * from Basic_A where ……
- }
- ….
- }
<script>render_code();</script>
后续版本,我决定采用 Join Table的方式来处理,试图用一个复杂的Big Join Query / View 一次把所有的相关数据记录全都取出来。整个处理过程中,只需要一次数据库查询。
代码
- Select * from (Transact_A left join Basic_B on ….) inner join Transact_B on .., C, D, E… Where … < …. > … not exists… a lot of conditions.
-
- While(rs.next()){
- a.populate(rs);
- b.populate(rs);
-
- if(a… b.. ) …
- …
- }
<script>render_code();</script>
一部分 Business Logic (条件比较等)移动到SQL里面,代码的可读性变差,运行速度提高。
由于业务逻辑的复杂性,一条SQL很难恰好选出需要处理的数据,为了最大限度的减少不必要的数据,有些比较大的复合View还被多次引用。
几千条数据,这条SQL工作还好,几秒钟、十几秒钟就返回结果集;几万条数据,这条SQL需要几分钟才能够返回;几十万条数据,运气好,10多分钟、几十分钟返回,运气不好,就干脆不返回了。
二 SQL Optimization
Oracle网站有Performance Tuning的PDF文档,详细介绍了语句置换,hint, index, explain plan, SQL Trace等方法。
这里有一篇比较全的翻译的SQL调优文章,
http://www.chinaunix.net/jh/19/214182.html
其中的第15条明确说明,SQL中的 = 操作符 支持 Tuple元组操作,这个 = 可以用来给一个元组Tuple赋值,也可以比较两个元组Tuple。
代码
- 15. 减少对表的查询
- 在含有子查询的SQL语句中,要特别注意减少对表的查询.
- 例如:
- Slow:
- SELECT TAB_NAME
- FROM TABLES
- WHERE TAB_NAME = ( SELECT TAB_NAME
- FROM TAB_COLUMNS
- WHERE VERSION = 604)
- AND DB_VER= ( SELECT DB_VER
- FROM TAB_COLUMNS
- WHERE VERSION = 604)
-
- Fast:
- SELECT TAB_NAME
- FROM TABLES
- WHERE (TAB_NAME,DB_VER)
- = ( SELECT TAB_NAME,DB_VER)
- FROM TAB_COLUMNS
- WHERE VERSION = 604)
-
- Update 多个Column 例子:
- Slow
- UPDATE EMP
- SET EMP_CAT = (SELECT MAX(CATEGORY) FROM EMP_CATEGORIES),
- SAL_RANGE = (SELECT MAX(SAL_RANGE) FROM EMP_CATEGORIES)
- WHERE EMP_DEPT = 0020;
-
- Fast
- UPDATE EMP
- SET (EMP_CAT, SAL_RANGE)
- = (SELECT MAX(CATEGORY) , MAX(SAL_RANGE)
- FROM EMP_CATEGORIES)
- WHERE EMP_DEPT = 0020;
<script>render_code();</script>
其中的第8条,我恰好用得上。
代码
- 8. 使用DECODE函数来减少处理时间
- 使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表.
- 例如:
- SELECT COUNT(*),SUM(SAL)
- FROM EMP
- WHERE DEPT_NO = 0020
- AND ENAME LIKE ‘SMITH%’;
- SELECT COUNT(*),SUM(SAL)
- FROM EMP
- WHERE DEPT_NO = 0030
- AND ENAME LIKE ‘SMITH%’;
- 你可以用DECODE函数高效地得到相同结果
- SELECT COUNT(DECODE(DEPT_NO,0020,’X’,NULL)) D0020_COUNT,
- COUNT(DECODE(DEPT_NO,0030,’X’,NULL)) D0030_COUNT,
- SUM(DECODE(DEPT_NO,0020,SAL,NULL)) D0020_SAL,
- SUM(DECODE(DEPT_NO,0030,SAL,NULL)) D0030_SAL
- FROM EMP WHERE ENAME LIKE ‘SMITH%’;
- 类似的,DECODE函数也可以运用于GROUP BY 和ORDER BY子句中.
<script>render_code();</script>
正好用来更新 parent 纪录中关于 child的统计字段。以前我这么写,
代码
- update parent p
- set
- balance_1 = (select sum(amount) from child c where c.parent_id = p.id and type in (1, 2))
- balance_2 = (select sum(amount) from child c where c.parent_id = p.id and type in (3, 4))
- where …
<script>render_code();</script>
现在我这么写,
代码
- update parent p
- set
- (balance_1, balance_2) = (
- select
- sum(decode(type, 1, amount, 2, amount, null)) as balance_1,
- sum(decode(type, 3, amount, 4, amount, null)) as balance_2,
- from child c where c.parent_id = p.id)
- where …
<script>render_code();</script>
三 临时表
优化了半天,瓶颈在于对其中一个Big View的多次使用上。只好用空间换时间,把这个多次使用的View先放到临时表里面。
业务逻辑有这样的匹配逻辑,选择最符合条件的数据,其他的数据不用。
代码
- Select * from
- (Select * from temp
- where …
- order by column_1, column_2, column_3) t
- where t.rownum = 1 -- 只选择排在最前面的一条
<script>render_code();</script>
如果直接用上面这段SQL来过滤temp数据,比较麻烦。我干脆又在temp里面多加了一个额外字段match_level, 专门用来存放匹配级别。
创建临时表数据的时候,直接生成这个match_level。
代码
- Insert into temp
- select
- big_view.*,
- decode(column_1, … ) || decode(column_2, …) || decode(column_3, …) as match_level
- from big_view where …
<script>render_code();</script>
这里把多个column排序结果综合到一个字段里面,便于后面的比较。
于是,我就可以用一条相对比较简单的SQL删除掉 不是最佳匹配的纪录。
代码
- delete temp
- where exists(
- select * from
- (select id, max(match_level) from temp t group by id having count(*) > 1) t
- where temp.id = t.id and temp.match_level < t.match_level)
<script>render_code();</script>
处理一个月的数据,上万条记录的情况下,上面这两条insert和 delete执行时间加起来在10 -- 20秒左右。后面的一个Big Query就可以用这个temp table直接把恰好要使用的数据取出来,10秒左右就可以返回结果集(几万条)。处理这个结果集的时间,几分钟左右。
处理24个月的几十万条数据,需要几十分钟。速度提高了几十倍。
既然为了速度,用了这么多vendor native SQL feature, Big Join, temp table, 已经没有移植性可言,为什么不干脆用PL/SQL?
我对PL/SQL语法不熟悉,只是尽量把条件判断过滤放到SQL里面,而重要的计算公式部分(还是比较复杂的)在Java里面处理。我觉得,SQL即使带一点Native feature,也应该比Stored Procedure容易移植。
四 对象数据库
关系数据库号称 更快,支持更复杂的数据类型和关系,数据间的关联查询更快。
不算那些Java, C++等Object的存储工具,只算那些称得上DB的,开源的Object Database有db4object, OZONE, GigaBase(Object Relational Database)等。
(Berkeley DB勉强算得上Object Database?)
存储空间和性能还无法和商业数据库比。不像关系数据库,有了MaxDB, Ingres, PostgreSQL等比较成熟的开源关系数据库。
商业对象数据库挺多,这里就不罗列了。我看的资料比较的多的是Objectivity/DB和Intersystems Cache’。
http://www.objectivity.com
http://www.intersystems.cn
http://www.intersystems.com
两者都号称大数据量、高并发、高性能。通过看过的文档和资料,我更看好Cache’一些。似乎Cache’ 更快,更便宜,支持关系模型更好。Cache’号称 后关系数据库 Post Relational Database。当然,Objectivity是purer Object Database,面向对象特性也许更多一些。
关于对象数据库性能,有两种相反的说法。
1. 对象数据库 比 关系数据库 快
引用
原文
http://www.cnblogs.com/xgchang/archive/2004/12/05/26474.html
⑷性能的比较
ODBMS和RDBMS产品数据存取性能的差别已按通用测试标准验证过了。SUN公司的Riok Cattell等人著的“对象数据库评估”(1991年对象世界会议文集)已对四个ODBMS产品:Objectivity,Objectstore,Ontos,Versant以及两个RDBMS产品:Sybase和Ingress进行了测试。一般说来,对于“冷”数据存取(对磁盘数据库存取)ODBMS比RDBMS平均快5倍;对于“热”数据存取(在内存中的数据库存取)要快30倍,对于“热导航”(在内存中对某一给定的对象访问与之相联系的所有对象)ODBMS任何一个产品都比RDBMS的每一个产品性能要高出三个数量级。
Objectivity/DB自己的Bench Mark文章这样写,在小数据量下,RDBMS(Oracle)更快,数据量越大,Objectivity就会比RDBMS快的越多。
2. 对象数据库 比 关系数据库 慢
引用
原文
http://www.fic.se/MScThesis.Frost.Beta.pdf
Multi-dimensional and relational data warehouses have problems.
expressing complex data types. Object orientation on the other hand deal with complex
data types but lacks in performance on the database technology side.
…
object-oriented database management systems (OODBMS) the poor performance on ad- hoc queries.
…
object-oriented data warehouse still face the problem of ad-hoc query performance on large datasets, a problem which multi-dimensional, relational and hybrid techniques overcomes.
…
分享到:
相关推荐
一个使用AndroidStudio开发的校园通知APP,支持注册登录,支持聊天,后端技术:http get post 方法(分别有json数据格式和form数据格式),websocket长连接,用于接收消息,mqtt协议用于查看数据。
基于粒子群的ieee30节点优化、配电网有功-无功优化 软件:Matlab+Matpowre 介绍:对配电网中有功-无功协调优化调度展开研究,通过对光伏电源、储能装置、无功电源和变压器分接头等设备协调控制,以实现光伏利用率最大、网络损耗最小、电压质量最优的综合优化目标。 采用粒子群算法寻求最优解,得到配电网的调控策略,从而制定合理的优化运行方案。 最后通过算例分析,说明其合理性。 Matpowre(需要Matpowre请安装不然会有错)
通过自定义事件来传值。此种方法适合于写驱动程序。进行数据采集。 对于一般的系统事件,是有两个参数的,一个是sender,一个是EventArgs,对于sender,个事件的触发者,一般指向的是一个控件,但是对于EventArgs,一般常用来传递鼠标位置等信息,下面就自定义事件传值就是通过EventArgs来实现。 通过EventArgs来实现传值,我们首先需要创建一个类,继承EventArgs,我们可以将需要传递的数据,直接在类里面定义成属性,这里以传递一个布尔(没有再最终的代码内使用)、一个浮点数,一个字符串为例,
【资源说明】 基于校园的互帮互助社交APP全部资料+详细文档+高分项目.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
Download usage
【资源说明】 基于高德地图的校园导航全部资料+详细文档+高分项目.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
内容概要:本文介绍了 2020 京东健康智慧医药医疗博览会在湖南长沙举办的总体方案。该方案详细描述了展会的背景、目标、组织机构、展区规模和内容、主体活动、拟邀嘉宾及宣传媒体等内容。展会旨在展示互联网+医疗健康生态下的新技术、新产品和新方案,推动智慧医疗产业链的数据化、信息化和智慧化建设,为健康中国战略和健康湖南行动贡献力量。 适合人群:医疗行业的从业人员、智慧医疗技术开发者、政府相关部门、健康产业投资人等。 使用场景及目标:① 通过展会展示先进的医药医疗技术和产品,促进技术交流与合作;② 推动智慧医疗产业发展,助力健康中国战略和健康湖南行动的实施;③ 提高人民群众的健康水平和医疗服务质量。 其他说明:此次展会将设置十大展区,涵盖健康管理、智慧医院、精准医疗、智能穿戴、移动医疗系统、智能养老等多个方面,同期还将举办多场论坛和商务活动。
C/S架构,C++开发的,使用UDP协议
2023-04-06-项目笔记-第三百五十六阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码 小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.354局变量的作用域_354- 2024-12-23
【资源说明】 基于Bmob后台搭建的一块校园社区类APP,内置二手交易模块全部资料+详细文档+高分项目.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
高校学生求职就业平台(编号:24440246).zip
内容概要:本文详细介绍如何使用Python结合Pygame库制作一个充满圣诞气息的应用程序。该程序包括生成雪花、圣诞树以及闪烁星星的效果,并配以背景音乐以增加节日气氛。通过具体的代码示例,指导读者逐步构建这一有趣的项目。 适用人群:对于有兴趣探索Pygame图形库及游戏开发的基础开发者、编程初学者。 使用场景及目标:① 初步掌握Pygame的基本用法及其常见图形绘制方法;② 学习如何通过编程手段营造节日氛围;③ 作为个人项目或课堂作业的优秀实践。 其他说明:除了文中提供的基础功能外,鼓励读者在此基础上发挥创意,加入更多有趣的功能,比如动态改变场景中的物体、响应用户输入等,从而创造出独一无二的作品。
计算机程序设计员三级(选择题)
基于Spring Boot的养老院管理系统的设计与实现_6575f5w2_223-wx(1).zip
数据结构
内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。
基于java的网上订餐系统(编号:96717170).zip
基于Java WEB旅游门票信息系统设计与实现_70rn7486_206-wx.zip
无刷电机永磁同步电机库,有感控制,无感控制库
2024年超融合网络架构研究与实践报告.pdf