`
datamachine
  • 浏览: 163505 次
社区版块
存档分类
最新评论
文章列表
报表项目中,大部分报表简单的搞搞即可完成。但是,总有一部分复杂报表需要自定义数据集才能实现。自定义数据集是指报表的数据源不能通过简单SQL实现,需要用报表工具提供的API,调用程序员开发的程序来实现。这部分报表数量不多,但是编程、调试工作量较大,在整个项目中占用的时间反而更长。 为什么自定义数据集会成为报表项目的常态?   报表由两部分组成的:数据计算和报表呈现。自定义报表出现的原因,是因为数据库的原始数据结构与报表要展现的数据之间差异大,造成报表数据计算过程比较复杂。 有些报表连接的原始数据库是生产数据库,数据结构不适合报表直接展现,所以要写比较复杂的程序;即使报表连接的是经过整理的 ...
在选择报表工具时,性能一直是用户关心的指标,但是,报表工具的性能和整个报表系统的性能有多大关系呢? 要回答这个问题,首先要分析一下报表的处理过程包含哪些环节,哪些环节容易出现性能瓶颈,如何优化这些环节 ...
7.多表连接 7.1.算法说明 输入: 本测试采用一组宽表和一组窄表来作为输入,宽表组和窄表组只是字段不同,参加运算的字段和算法都一样。 宽表组:数据t表(或者文件)是事实表,共100个字段,6900万行,占硬盘80G;Di、Dj表示维表,都是100列,1000万行,占硬盘10G。 窄表组:数据t表(或者文件)是事实表,共10个字段,11

无题

累得跟狗一样!                                     
1.  测试目的 针对相同的硬件环境和计算任务,对比Oracle和集算器的性能差异,为客户选型提供参考。 2.  硬件环境 设备数量:1台 CPU:16核 Intel(R) Xeon(R) CPU E5620  @ 2.40GHz 内存:20G 3. 软件环境 操作系统:CentOS6.4 64位 JDK ...
我于1941年9月9日出生在纽约州布朗克斯维尔(Bronxville),后来在哈佛大学读了本科并进一步深造,我的本科专业是物理学,研究生阶段学的是应用数学。我的博士论文(1968年)是关于函数的子递归层次(subrecursive hierarchies)。 ...
上篇进行过Hive/Impala/集算器的分组计算的性能测试,本篇进行关联计算的性能测试及结果说明。   窄表的关联计算测试 数据样本         被关联表p_narrow。         列数:11         行数:5亿         文本状态下所占空间:120.6G。         数据结构: personid int,name string,sex int,cityid int,birthday int,degree int,col1 string,col2 int,col3  int,col4 int,col5 string           ...
目的        对比Hive、集算器、Impala这三种大数据解决方案在分组汇总和关联计算时的性能差异。         硬件环境       PC数量:4       CPU:Intel Core i5 2500(4核)       RAM:16G       HDD:2T/7200rpm       Ethernet adapter:10 ...
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是,与大名鼎鼎的曼哈顿计划(第二次世界大战中美国原子弹研究计划)相 比,计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》(Turing’s Cathedral)中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来盛况的轶事。Dyson向《连线》前主编凯文·凯 利(以下分别简称Dayson和KK)讲述了“数字宇宙”的“大爆炸”。 KK:我们在进行电话访谈,这时我们是否处于这个数字宇宙中? Dayson:当然。您正在用数字录音机将这次对话录制到一个位 ...

编程语言编年史

    博客分类:
  • DB
转贴地址:http://www.aqee.net/history-of-programming-languages-must-know/。   编程语言是一组用来定义计算机程序的语法规则。它是一种被标准化的交流语言,用来向计算机发出指令。一种计算机语言让程序员能够准确地定义计算机所需要使用的数据,并精确地定义在不同情况下所应当采取的行动。尽管人们多次试图创造一种通用的程序设计语言,却没有一次尝试是成功的。之所以有那么多种不同的编程语言存在的原因是设计程序语言的初衷不同,对语言学习曲线的追求不同,不同程序之间的运行成本差异等。   下面这张图片描绘了整个编程语言的历史。包括各种编程语言的 ...
问题描述 项目里有些报表出来的速度特别慢,尽管对润乾报表和Oracle数据库做了很多优化,效果还是不理想,这些报表普遍数据量比较大,涉及到的数据库表多(几十张)、表间关联频繁(还有自连接),报表里也有多个汇总、比值等计算。 以其中一个明细报表为例,它的SQL如下: (select * from (select syb.org_abbn as syb, max(xmb.org_abbn) as xmb, sub.org_subjection_id as sub_id, oi.org_abbn as org_abb, rm.rec_notice_org_id, rm.syner ...
转自:http://dev.yesky.com/296/35381296.shtml。   Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。 当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!  实际上Hadoop被设计和建造出来 ...
前段时间转了一篇SQL的文章(http://datamachine.iteye.com/blog/1971896),文章不复杂,但思想深刻,就顺便思考了一下java的不足,当砖头丢出来,希望引点和田玉。   -----------------------------------------------------------------------------------------分割线---------------------------------- SQL和JAVA(这里的JAVA泛指各种高级语言)是最常用的两种计算体系。两者在处理批量结构化数据(即数据库中的数据)时各有优势,J ...
原文:http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html--------------------------------------------------------------------------------------------------------------------------------- For a while, I’ve used the Apache Commons lang StringUtils implementation of ...
注:写这篇文章的初衷是因为Hadoop炒得有点太热,很多用户现有数据规模并不适用于Hadoop,但迫于扩容压力和去IOE(Hadoop的廉价扩展的确非常有吸引力)而尝试。尝试永远是件正确的事儿,但有时候不用太突进,可以调优或调需 ...
Global site tag (gtag.js) - Google Analytics