- 浏览: 151760 次
- 性别:
- 来自: 大连
-
文章分类
最新评论
-
zhuxinquan61:
你好,我是一个初学者,不知道是不是有validation.xm ...
struts中的Validator-rules.xml配置文件详解 -
wukele:
中文文件名压缩后是乱码~
JAVA压缩文件或文件夹的代码 -
suncjh:
高强度文件夹加密大师
U盘、移动硬盘加密工具绿色版 -
sbpcx:
assdust110 写道jiasky 写道请问楼主的头像是不 ...
Hibernate查询详解 -
yeshuang:
里面的很多的东西
SSH2整合步骤
最近在做一个银行的生产数据脱敏系统,今天写代码时遇到了一个“瓶颈”,脱敏系统需要将生产环境上Infoxmix里的数据原封不动的Copy到另一台 Oracle数据库服务器上,然后对Copy后的数据作些漂白处理。为了将人为干预的因素降到最低,在系统设计时采用Java代码对数据作Copy,思路 如图:
首 先在代码与生产库间建立一个Connection,将读取到的数据放在ResultSet对象,然后再与开发库建立一个Connection。从 ResultSet取出数据后通过TestConnection插入到开发库,以此来实现Copy。代码写完后运行程序,速度太慢了,一秒钟只能Copy 一千条数据,生产库上有上亿条数据,按照这个速度同步完要到猴年马月呀,用PreparedStatement批处理速度也没有提交多少。我想能不能用多 线程处理,多个人干活总比一个人干活速度要快。
假设生产库有1万条数据,我开5个线程,每个线程分2000条数据,同时向开发库里插数据,Oracle支持高并发这样的话速度至少会提高好多倍,按照这 个思路重新进行了编码,批处理设置为1万条一提交,统计插入数量的变量使用 java.util.concurrent.atomic.AtomicLong,程序一运行,传输速度飞快CPU利用率在70%~90%,现在一秒钟可 以拷贝50万条记录,没过几分钟上亿条数据一条不落地全部Copy到目标库。
在查询的时候我用了如下语句
实习生问如果xx表里有上千万条记录,你全部查询出来放到ResultSet, 那内存不溢出了么?Java在设计的时候已经考虑到这个问题了,并没有查询出所有的数据,而是只查询了一部分数据放到ResultSet,数据“用完”它 会自动查询下一批数据,你可以用setFetchSize(int rows)方法设置一个建议值给ResultSet,告诉它每次从数据库Fetch多少条数据。但我不赞成,因为JDBC驱动会根据实际情况自动调整 Fetch的数量。另外性能也与网线的带宽有直接的关系。
相关代码
呵呵。。。解决方案有很多的;我也是实际项目赶到这儿了;所以就用java线程模式处理了!
老兄,你怎么随便拿我的文章到处贴,您也在大连银行工作?不过我好象没有见过你
呵呵,既然乱转文章。
那具体的表结构当然是看你具体的操作了;我的表只有五个字段;当然就set五个了;难道还要set6个?
呵呵。。。解决方案有很多的;我也是实际项目赶到这儿了;所以就用java线程模式处理了!
老兄,你怎么随便拿我的文章到处贴,您也在大连银行工作?不过我好象没有见过你
呵呵。。。解决方案有很多的;我也是实际项目赶到这儿了;所以就用java线程模式处理了!

首 先在代码与生产库间建立一个Connection,将读取到的数据放在ResultSet对象,然后再与开发库建立一个Connection。从 ResultSet取出数据后通过TestConnection插入到开发库,以此来实现Copy。代码写完后运行程序,速度太慢了,一秒钟只能Copy 一千条数据,生产库上有上亿条数据,按照这个速度同步完要到猴年马月呀,用PreparedStatement批处理速度也没有提交多少。我想能不能用多 线程处理,多个人干活总比一个人干活速度要快。
假设生产库有1万条数据,我开5个线程,每个线程分2000条数据,同时向开发库里插数据,Oracle支持高并发这样的话速度至少会提高好多倍,按照这 个思路重新进行了编码,批处理设置为1万条一提交,统计插入数量的变量使用 java.util.concurrent.atomic.AtomicLong,程序一运行,传输速度飞快CPU利用率在70%~90%,现在一秒钟可 以拷贝50万条记录,没过几分钟上亿条数据一条不落地全部Copy到目标库。
在查询的时候我用了如下语句
String queryStr = "SELECT * FROM xx"; ResultSet coreRs = PreparedStatement.executeQuery(queryStr);
实习生问如果xx表里有上千万条记录,你全部查询出来放到ResultSet, 那内存不溢出了么?Java在设计的时候已经考虑到这个问题了,并没有查询出所有的数据,而是只查询了一部分数据放到ResultSet,数据“用完”它 会自动查询下一批数据,你可以用setFetchSize(int rows)方法设置一个建议值给ResultSet,告诉它每次从数据库Fetch多少条数据。但我不赞成,因为JDBC驱动会根据实际情况自动调整 Fetch的数量。另外性能也与网线的带宽有直接的关系。
相关代码
package com.dlbank.domain; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.Statement; import java.util.List; import java.util.concurrent.atomic.AtomicLong; import org.apache.log4j.Logger; /** *<p>title: 数据同步类 </p> *<p>Description: 该类用于将生产核心库数据同步到开发库</p> *@author Tank Zhang */ public class CoreDataSyncImpl implements CoreDataSync { private List<String> coreTBNames; //要同步的核心库表名 private ConnectionFactory connectionFactory; private Logger log = Logger.getLogger(getClass()); private AtomicLong currentSynCount = new AtomicLong(0L); //当前已同步的条数 private int syncThreadNum; //同步的线程数 @Override public void syncData(int businessType) throws Exception { for (String tmpTBName : coreTBNames) { log.info("开始同步核心库" + tmpTBName + "表数据"); // 获得核心库连接 Connection coreConnection = connectionFactory.getDMSConnection(4); Statement coreStmt = coreConnection.createStatement(); //为每个线程分配结果集 ResultSet coreRs = coreStmt.executeQuery("SELECT count(*) FROM "+tmpTBName); coreRs.next(); //总共处理的数量 long totalNum = coreRs.getLong(1); //每个线程处理的数量 long ownerRecordNum =(long) Math.ceil((totalNum / syncThreadNum)); log.info("共需要同步的数据量:"+totalNum); log.info("同步线程数量:"+syncThreadNum); log.info("每个线程可处理的数量:"+ownerRecordNum); // 开启五个线程向目标库同步数据 for(int i=0; i < syncThreadNum; i ++){ StringBuilder sqlBuilder = new StringBuilder(); //拼装后SQL示例 //Select * From dms_core_ds Where id between 1 And 657398 //Select * From dms_core_ds Where id between 657399 And 1314796 //Select * From dms_core_ds Where id between 1314797 And 1972194 //Select * From dms_core_ds Where id between 1972195 And 2629592 //Select * From dms_core_ds Where id between 2629593 And 3286990 //.. sqlBuilder.append("Select * From ").append(tmpTBName) .append(" Where id between " ).append(i * ownerRecordNum +1) .append( " And ") .append((i * ownerRecordNum + ownerRecordNum)); Thread workThread = new Thread( new WorkerHandler(sqlBuilder.toString(),businessType,tmpTBName)); workThread.setName("SyncThread-"+i); workThread.start(); } while (currentSynCount.get() < totalNum); //休眠一会儿让数据库有机会commit剩余的批处理(只针对JUnit单元测试,因为单元测试完成后会关闭虚拟器,使线程里的代码没有机会作提交操作); //Thread.sleep(1000 * 3); log.info( "核心库"+tmpTBName+"表数据同步完成,共同步了" + currentSynCount.get() + "条数据"); } }// end for loop public void setCoreTBNames(List<String> coreTBNames) { this.coreTBNames = coreTBNames; } public void setConnectionFactory(ConnectionFactory connectionFactory) { this.connectionFactory = connectionFactory; } public void setSyncThreadNum(int syncThreadNum) { this.syncThreadNum = syncThreadNum; } //数据同步线程 final class WorkerHandler implements Runnable { ResultSet coreRs; String queryStr; int businessType; String targetTBName; public WorkerHandler(String queryStr,int businessType,String targetTBName) { this.queryStr = queryStr; this.businessType = businessType; this.targetTBName = targetTBName; } @Override public void run() { try { //开始同步 launchSyncData(); } catch(Exception e){ log.error(e); e.printStackTrace(); } } //同步数据方法 void launchSyncData() throws Exception{ // 获得核心库连接 Connection coreConnection = connectionFactory.getDMSConnection(4); Statement coreStmt = coreConnection.createStatement(); // 获得目标库连接 Connection targetConn = connectionFactory.getDMSConnection(businessType); targetConn.setAutoCommit(false);// 设置手动提交 PreparedStatement targetPstmt = targetConn.prepareStatement("INSERT INTO " + targetTBName+" VALUES (?,?,?,?,?)"); ResultSet coreRs = coreStmt.executeQuery(queryStr); log.info(Thread.currentThread().getName()+"'s Query SQL::"+queryStr); int batchCounter = 0; //累加的批处理数量 while (coreRs.next()) { targetPstmt.setString(1, coreRs.getString(2)); targetPstmt.setString(2, coreRs.getString(3)); targetPstmt.setString(3, coreRs.getString(4)); targetPstmt.setString(4, coreRs.getString(5)); targetPstmt.setString(5, coreRs.getString(6)); targetPstmt.addBatch(); batchCounter++; currentSynCount.incrementAndGet();//递增 if (batchCounter % 10000 == 0) { //1万条数据一提交 targetPstmt.executeBatch(); targetPstmt.clearBatch(); targetConn.commit(); } } //提交剩余的批处理 targetPstmt.executeBatch(); targetPstmt.clearBatch(); targetConn.commit(); //释放连接 connectionFactory.release(targetConn, targetPstmt,coreRs); } } }
评论
15 楼
superyang
2010-11-25
用天河一号,应该超快...
14 楼
月落码农
2010-11-25
sunnylocus 写道
jiayj198609 写道
imacback 写道
为什么要用java导呢,有没有别的解决方案???这个实在是慢,搞数据仓库的不错。
呵呵。。。解决方案有很多的;我也是实际项目赶到这儿了;所以就用java线程模式处理了!
老兄,你怎么随便拿我的文章到处贴,您也在大连银行工作?不过我好象没有见过你
呵呵,既然乱转文章。
13 楼
jiayj198609
2010-11-25
yjwxfpl 写道
PreparedStatement targetPstmt = targetConn.prepareStatement("INSERT INTO " + targetTBName+" VALUES (?,?,?,?,?)");
你同步的表结构都只有五个字段 ,targetPstmt.setString() 类型全都是String?
你同步的表结构都只有五个字段 ,targetPstmt.setString() 类型全都是String?
那具体的表结构当然是看你具体的操作了;我的表只有五个字段;当然就set五个了;难道还要set6个?
12 楼
vivid_gxp
2010-11-25
这种操作用JAVA?Oracle不光是存储数据用的……
话不多说了,多用用数据库吧。搞开发的也要了解点数据库知识的。
话不多说了,多用用数据库吧。搞开发的也要了解点数据库知识的。
11 楼
jpacm
2010-11-25
ORACLE中有支持infomix的透明网关吧,通过透明网关建立dblink,然后select一把就可以了。
10 楼
yjwxfpl
2010-11-25
PreparedStatement targetPstmt = targetConn.prepareStatement("INSERT INTO " + targetTBName+" VALUES (?,?,?,?,?)");
你同步的表结构都只有五个字段 ,targetPstmt.setString() 类型全都是String?
你同步的表结构都只有五个字段 ,targetPstmt.setString() 类型全都是String?
9 楼
Mr.China
2010-11-25
如果没有大字段,可导出为文本格式,再导入。
将informix导出的文本数据导入oracle数据库。
关于数据的导入,使用ORACLE的SQL Loader。
其它工具:
ORACLE Migration bench(支持informix,db2的迁移)。
PS:原来这是转载的?
将informix导出的文本数据导入oracle数据库。
关于数据的导入,使用ORACLE的SQL Loader。
其它工具:
ORACLE Migration bench(支持informix,db2的迁移)。
PS:原来这是转载的?
8 楼
sunnylocus
2010-11-25
有人转了我的文章,我就顺便说一下,计算每个线程数据传输量的算法有bug,有可能会丢一条数据,把原来的long ownerRecordNum =(long) Math.ceil((totalNum / syncThreadNum));
改成
long ownerRecordNum = ((totalNum % syncThreadNum) == 0) ? (totalNum / syncThreadNum):((totalNum / syncThreadNum) + 1);就OK了
改成
long ownerRecordNum = ((totalNum % syncThreadNum) == 0) ? (totalNum / syncThreadNum):((totalNum / syncThreadNum) + 1);就OK了
7 楼
sunnylocus
2010-11-25
jiayj198609 写道
imacback 写道
为什么要用java导呢,有没有别的解决方案???这个实在是慢,搞数据仓库的不错。
呵呵。。。解决方案有很多的;我也是实际项目赶到这儿了;所以就用java线程模式处理了!
老兄,你怎么随便拿我的文章到处贴,您也在大连银行工作?不过我好象没有见过你
6 楼
limengchengg
2010-11-25
用GoldenGate
最优选择
就是比较贵
最优选择
就是比较贵
5 楼
smithfox
2010-11-25
Sorry, Informix -> Oracle, DBlink不行
也不会有1) 和 2)的问题,
但是类似问题还是有的
也不会有1) 和 2)的问题,
但是类似问题还是有的
4 楼
smithfox
2010-11-25
我有几个问题:
1) 有没有考虑CLOB/BLOB字段?
2) 没有考虑过一次性查询过多数据, 很可能会有 "ORA-1013", "ORA-1555"?
3) 如果你所处理的情况是target database肯定是没有数据的(也就是说insert时不会产生主键冲突), 你为什么不尝试用dblink?
1) 有没有考虑CLOB/BLOB字段?
2) 没有考虑过一次性查询过多数据, 很可能会有 "ORA-1013", "ORA-1555"?
3) 如果你所处理的情况是target database肯定是没有数据的(也就是说insert时不会产生主键冲突), 你为什么不尝试用dblink?
3 楼
leemny
2010-11-25
...没有DBA吧。。。说实话用java辅助导入是程序员最不爱干的,不妨试试语句处理
2 楼
jiayj198609
2010-11-25
imacback 写道
为什么要用java导呢,有没有别的解决方案???这个实在是慢,搞数据仓库的不错。
呵呵。。。解决方案有很多的;我也是实际项目赶到这儿了;所以就用java线程模式处理了!
1 楼
imacback
2010-11-25
为什么要用java导呢,有没有别的解决方案???这个实在是慢,搞数据仓库的不错。
发表评论
-
少时诵诗书
2011-04-25 16:36 105411111111111111111111111111111 -
new struts2
2011-01-13 16:20 932new struts2 -
java获取本地机器所有IP和物理地址
2010-12-11 11:07 8337package com.cn; import java. ... -
用java随机画出两个圆,判断它们是否相交
2010-11-25 15:30 4056import java.awt.*; impor ... -
写一个较啰嗦;但是很好玩儿的java程序
2010-11-25 15:26 7272package com.cn; import java. ... -
JAVA压缩文件或文件夹的代码
2010-11-25 09:31 2594package com.cn; import java. ... -
获取IP地址
2010-11-25 09:15 926package com.tianren.service; i ... -
使用JAVA数字证书做数字签名认证
2010-11-25 08:53 17601. keytool -genkey -keystore c ... -
java打印程序设计
2010-11-22 10:05 10061 前言 在我们的实际 ... -
各种排序算法java实现
2010-11-22 09:58 873package org.rut.util.algorithm. ... -
java中调用ORACLE存储过程
2010-11-22 09:47 1117一:无返回值的存储过程 存储过程为: CREATE OR ... -
增强Eclipse ,MyEclipse的代码提示功能(图文教程)V1.1
2010-11-19 09:27 886此文档需要下载![/size] -
myeclipse8.0下载 汉化 破解方法 及 svn配置
2010-11-19 09:21 1242今天到网上弄了一个MyEclipse8.0 的呵呵。包括可以汉 ... -
MyEclipse 8.0正式版发布+高速下载以及安装+注册码+破解+升级
2010-11-19 09:17 3759MyEclipse 8.0正式版发布+高速下载以及安装+注册码 ... -
java时间操作函数汇总
2010-11-18 13:15 847经常用到时间日期类,所以就将常用的日期方法和属性都归纳总结如下 ... -
Java文件下载的几种方式
2010-11-18 12:58 904public HttpServletResponse down ... -
Java发送邮件(包括文本,网页,附件)
2010-11-17 10:47 1860commons-email-1.2.jar: 这是Apache ... -
java.lang.String中的trim()方法的详细使用介绍
2010-11-15 11:31 5468String.Trim()方法到底为我们做了什么,仅仅是去除字 ...
相关推荐
本文将深入探讨如何使用Java来实现多个数据库之间的数据同步。 首先,我们需要理解数据同步的含义。数据同步是指在两个或多个数据库之间,当某个数据库中的数据发生改变时,这些变化能够被实时或者近实时地反映到...
下面我们将深入探讨如何使用Java实现两个MySQL数据库之间的数据同步,以及涉及的相关知识点。 首先,我们需要理解MySQL的复制原理。MySQL的主从复制是基于日志的,主库上的所有更改都会被记录到二进制日志(binlog...
Spring Boot作为Java领域的一个热门微服务框架,提供了强大的定时任务功能,能够帮助我们实现不同数据库间的数据同步,比如Oracle到MySQL。本篇文章将详细讲解如何利用Spring Boot的定时任务特性,结合Java的相关...
本文将深入探讨MySQL到Oracle的数据同步过程,以及如何在同步过程中修改MySQL数据表的标识。 首先,我们要理解MySQL和Oracle是两种不同的关系型数据库管理系统(RDBMS)。MySQL以其开源、轻量级、高效的特点被广泛...
在Java编程环境中,数据库的主从同步更新是一个重要的任务,特别是在分布式系统或者高可用性架构中,确保数据的一致性和完整性至关重要。这个过程通常涉及到主数据库的写操作和从数据库的读操作,以及两者间的实时...
总结来说,Java编程实现的同步序列密码加密解密系统是一种高效且灵活的解决方案,适用于需要实时加密大量数据的场景。理解其工作原理和实现细节,对于提升软件的安全性和合规性至关重要。在开发过程中,应始终关注...
### Java高性能编程——构建高可用系统的关键技术与实践 #### 引言 随着互联网技术的飞速发展,用户对服务的稳定性和响应速度提出了更高的要求。对于任何IT系统而言,“高可用性”(High Availability, HA)已经...
本实例聚焦于“java实现csv导出千万级数据实例”,旨在提供一个高效、稳定的解决方案,避免因数据量过大而导致的性能问题,如Java中的栈溢出(Stack Overflow)。CSV(Comma Separated Values)格式因其简单、通用性...
- 观察Canal Server和Adapter的日志,确认数据同步是否正常。 - 使用Elasticsearch的查询语句验证数据是否已正确写入。 在实际应用中,还需要考虑一些高级特性,如数据过滤(只同步部分表或部分列)、数据一致性...
在Java中,我们可能使用JavaFX或Swing来实现这样的功能。对于JavaFX,我们可以监听`onDragDetected`、`onDragEntered`、`onDragExited`、`onDragDropped`和`onDragDone`事件。以下是一个简化的JavaFX示例: ```java...
Java同步机制是多线程编程中确保数据一致性与正确性的关键。在Java中,主要有两种同步机制:内置的`synchronized`关键字以及基于`java.util.concurrent`包中的高级同步工具类。本文将深入探讨这些机制的底层实现,...
Java 实现歌词同步显示涉及到的是音乐播放器中的一个重要功能,即如何将歌词与正在播放的音乐进行精确匹配,为用户提供良好的听歌体验。在本文中,我们将深入探讨如何使用Java来实现这一功能,主要涉及以下几个关键...
在IT行业中,缓存系统是优化应用程序性能的关键技术之一,特别是在大数据量和高并发的场景下。本项目实现了一个基于Java的对象缓存系统,其中包含了LRU(Least Recently Used)算法,以及支持集群同步功能。这里我们...
在Java编程领域,实现群聊和同步画图是两个具有挑战性的任务,它们涉及到网络通信、多线程、图形用户界面(GUI)以及数据同步等多个关键知识点。这篇博客的作者通过分享自己的实践经验和代码示例,为我们揭示了如何...
ClickHouse是一个高性能的列式数据库管理系统(Column-Oriented DBMS),适用于在线分析处理(OLAP)和实时数据分析。MySQL作为流行的开源关系型数据库,广泛应用于事务处理和实时数据存储。在需要对历史数据进行...
然而,描述中提到在线程优化方面有欠缺,可能意味着在高并发情况下,线程管理或资源消耗存在性能瓶颈。 3. **图像处理**:桌面共享需要捕获屏幕图像,并将其编码成适合在网络上传输的数据格式,如JPEG或PNG。JAVA...
在Java编程环境中,Netty是一个高性能、异步事件驱动的网络应用程序框架,常用于构建可伸缩、高并发的服务器。本示例关注的是如何利用Netty实现一个基于UDP(User Datagram Protocol)的数据接收服务,这在需要进行...
达梦数据库(DMDatabase)是中国自主研发的高性能数据库产品,广泛应用于政府、金融、交通、医疗等领域。FlinkCDC与达梦数据库结合,可以实现基于日志的实时数据同步,这对于构建实时数据处理和分析系统具有重要意义...
Netty 是一个高性能、异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。在本文中,我们将深入探讨如何利用 Netty 实现...Netty的灵活性和高性能使得这些功能的实现变得简单而高效。
Redis作为一个高性能的键值数据库,因其简洁的架构和易于操作的特点,在缓存、消息队列、计数器等场景中得到了广泛应用。然而,随着应用场景的日益复杂,对Redis数据同步和命令解析的要求也越来越高。 本项目是一款...