最新文章列表

基于大量数据的Excel文件生成方案

基于大量数据的Excel生成方案 以往我们在基于POI生成Excel文件时,都是利用官方提供的HSSF或XSSF对应的系列API,它们操作简便,上手比较快。但是对于大数据量的Excel文件生成往往会比较耗时,这是我们利用标准的API进行开发的一个痛点。对于性能更高一点的API,POI官方会建议我们使用SXSSF系列API,虽然它的性能比起HSSF和XSSF会有很大的提高,但是面对大量数据的时候还 ...
234390216 评论(1) 有8801人浏览 2017-06-19 14:39

mysql高效删除大数据量表中的重复数据

boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。 如果删除小表,不担心效率,可以用下面方式删除, http://jimmy9495.iteye.com/admin/blogs/2072785 但是用上面的sql如果想在大表操作删除,肯定是不行的。 查看表中imsi除了空以外重复的数目。 SELECT COUNT(t ...
jimmy9495 评论(3) 有9682人浏览 2014-05-30 10:21

Java一次性查询几十万 几百万数据解决办法

在做大数据量同步的时候,需要注意的内存使用问题,程序稍微控制不足,可能就会导致内存溢出等问题...在网上找了一些资料,发现大家都使用的如 ...
gqsunrise 评论(0) 有3661人浏览 2014-01-03 16:54

在集群上支持数据库大数据量导出

80w行的数据导出 数据库表(经过程序处理)导出一般使用EXCEL文件,技术一般有POI、JXL、FastExcel。但是当文件过大(几十个字段,行数超过200,000)的 ...
wbj0110 评论(0) 有782人浏览 2013-11-23 18:45

Netlog中数据库演变过程(转载)

Netlog拥有4000万活跃用户,每个月有超过5000万的独立用户访问网站,每个月有5亿多的PV。数据量应该算是比较大的。作者是Jurriaan Persyn,他从一个开发者角度而非DBA或者SA角度来谈Netlog是如何通过数据切分来提高网站 性能,横向扩展数据层的   第一阶段:读写同在一台数据库服务器     第二阶段:读写分离(可以解决读写比例均衡或者读居多的情况,但是 ...
wbj0110 评论(0) 有865人浏览 2013-11-14 09:52

数据库中表散列之杂谈

数据库中的散列法是使用计算值来分配表格数据的方法,它比在整个索引中搜索要好的多。一个哈希散列答应你在数据库表格中存储数据,以便这些行 ...
tw_wangzhengquan 评论(0) 有609人浏览 2013-09-05 20:44

大数据量算法

第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大 的几个)及 ...
wbj0110 评论(0) 有1072人浏览 2013-07-24 13:28

大数据量高并发的数据库优化,sql查询优化

一、数据库结构的设计     如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行 ...
cao_jian 评论(0) 有1944人浏览 2013-05-30 22:21

oracle大数据量(千万界别)怎么优化查询,分区。

场景: 每天有100w条数据(大小为1G左右)插入一张表tableA中,每月1号凌晨清空tableB再把tableA中数据移植到tableB中,tableA和tableB位于同一个表空间tablespaceS(表空间32G左右,表空间不足时, 手工清空tableB),查询历史数据时的做法是tableA union tableB,面对这样千万级别的数据查询,现在级别动不了!(数据库为oracle10g ...
natian306 评论(0) 有1193人浏览 2013-04-02 11:59

大规模日志收集处理项目的技术总结

以下是2012年一个公司内部项目的技术总结,涉及到的方面比较多比较杂,拿出来和大家分享下。如果有更好的方案或者想法请联系我,谢谢~!注:文章中提到的其他系统(如哈勃Agent、EagleEye)是公司内部的其他系统,这里就不详细介绍了。 简介 TLog是一个分布式的,可靠的,对大量数据进行收集、分析、展现的的系统。主要应用场景是收集大量的运行时日志,分析并结构化存储,提供数据查询和展现。 ...
sdjcw 评论(2) 有6935人浏览 2013-02-25 15:45

提高lucene建立索引的效率(大数据量时)

第一种方式:IndexWriter类中关系到索引创建效率的几个方法 一、SetMergeFactor(合并因子) SetMergeFactor是控制segment合并频率的,其决定了一个索引块中包 ...
sunasheng 评论(0) 有2966人浏览 2012-12-28 14:59

POI3.8解决导出大数据量excel文件时内存溢出的问题

POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用。SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入会引起老一行的数据刷新到硬盘。        比如内存中限制行数为100,当行号到达101时,行号为0的记录刷新到硬盘并从内存中删除,当行号到达102时,行号为1的记录刷新到硬盘 ...
xtadg 评论(5) 有32001人浏览 2012-10-23 11:24

关于mysql数据库的一些优化方案

最近在工作中总结的一些经验,将部分章节分享给大家 2.1 数据冗余 数据冗余大致分为两种: 数据库冗余。是指为了防止数据丢失,或者为了提高数据库性能而对整个数据库进行备份操作,这样可以防止其中一台数据库崩溃时系统平台也崩溃的情况。 数据表字段冗余。是指在设计数据库时,某一字段数据一个表,但它又同时出现在另外一张表或者多个表中,并且和它在本来所属表中的意义相同,那么这个字段就是一个冗余字段。 这 ...
qaddzzq 评论(0) 有1027人浏览 2012-08-23 23:00

大数据量,海量数据 处理方法总结

大数据量,海量数据 处理方法总结 最近有点忙,稍微空闲下来,发篇总结贴。 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面 ...
lvwenwen 评论(0) 有1225人浏览 2012-03-07 00:39

关于数据量比较大的分页程序

基于db2的分页程序,主要注意使用主键、合理的利用fetch语句及where语句注意使用索引,可以有效降低系统负载,如果每页分页数据取的量不是很大,效果还是比较理想的。      select * from PSASPOOT0101 where (CONSIGNDATE,ODFICODE,PAYTXSNO )  in  ( select CONSIGNDATE,ODFICODE,PAY ...
eliotlb 评论(0) 有968人浏览 2012-02-29 19:10

用poi 写入大数据量到excel2007,总是报错,“Java heap space”,求解决....

用poi生成excel2007 创建XSSFWorkbook对象 Workbook workbook = new XSSFWorkbook(new FileInputStream(path)); Sheet sheet = workbook .createSheet("这里第一页"); FileOutputStream fos = new FileOutputStream(&q ...
v韧竹v 评论(1) 有6233人浏览 2012-02-16 10:22

Java读取大数据量Excel的方法(POI)

 工作当中遇到要读取大数据量Excel(10万行以上,Excel 2007),用POI方式读取,用HSSFWorkbook读取时,超过2万行JVM的内存就会溢出,在网上找到原来要用XML方式逐行读取,记录下来,以供参考。     注意:运行环境是jdk1.6,如果要在1.5的环境中运行,要把jdk1.6中的rt.jar中javax.xml包下所有类加到运行的环境中。     下面是代码: pa ...
javaEdge 评论(1) 有13903人浏览 2011-12-13 16:37

数据相关优化策略总结

 一、数据库结构的设计     如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能。所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的。     在一个系统分析、设计阶段,因为数据量较小,负荷较低。我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考 ...
new_restart 评论(0) 有876人浏览 2011-11-05 15:39

Twitter架构(转自hideto)

Twitter是目前为止最大的Ruby on Rails应用,几个月间页面点击由0增长到几百万,现在的Twitter比今年月快了10000% 平台 Ruby on Rails Erlang MySQL Mongrel Munin Nagios Goo ...
chinese.darren 评论(0) 有953人浏览 2011-10-22 11:58

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics