`

[记录]千万数据存入mysql

 
阅读更多

存入1千万条数据,用hibernate存

数据的定义都很简单:

    create table testEntity2 (
        id varchar(255) not null,
        description varchar(255),
        name varchar(255),
        primary key (id)
    )

 主键生成策略UUID

 

防止数据过大 

设置  <property name="hibernate.jdbc.batch_size">50</property> 

同时代码里也是50次 flush一下 clear一下 在eclipse的环境中 内存占用在500M左右

 

每10w条打印一次 如果不使用batch_size 也不flush和clear 内存会在2G左右

并且也会发生内存溢出的错误:(但前面几次的速度非常可观 到第280万条的时候堆溢出)

但这些只是存在session的缓存里 没有真正uncommit到数据库 所以到底有多快...不好说...

正在插入
1:1
2:2
3:2
4:3
5:3
6:5
7:5
8:7
9:7
10:7
11:8
12:8
13:8
14:11
15:11
16:11
17:12
18:15
19:15
20:15
21:16
22:16
23:17
24:17
25:24
26:28
27:35
28:49
Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
	at org.hibernate.engine.internal.StatefulPersistenceContext.addEntry(StatefulPersistenceContext.java:539)
	at org.hibernate.event.internal.AbstractSaveEventListener.performSaveOrReplicate(AbstractSaveEventListener.java:249)
	at org.hibernate.event.internal.AbstractSaveEventListener.performSave(AbstractSaveEventListener.java:192)
	at org.hibernate.event.internal.AbstractSaveEventListener.saveWithGeneratedId(AbstractSaveEventListener.java:135)
	at org.hibernate.event.internal.DefaultSaveOrUpdateEventListener.saveWithGeneratedOrRequestedId(DefaultSaveOrUpdateEventListener.java:206)
	at org.hibernate.event.internal.DefaultSaveEventListener.saveWithGeneratedOrRequestedId(DefaultSaveEventListener.java:55)
	at org.hibernate.event.internal.DefaultSaveOrUpdateEventListener.entityIsTransient(DefaultSaveOrUpdateEventListener.java:191)
	at org.hibernate.event.internal.DefaultSaveEventListener.performSaveOrUpdate(DefaultSaveEventListener.java:49)
	at org.hibernate.event.internal.DefaultSaveOrUpdateEventListener.onSaveOrUpdate(DefaultSaveOrUpdateEventListener.java:90)
	at org.hibernate.internal.SessionImpl.fireSave(SessionImpl.java:764)
	at org.hibernate.internal.SessionImpl.save(SessionImpl.java:756)
	at org.hibernate.internal.SessionImpl.save(SessionImpl.java:752)
	at org.cc.data.test.DataGenerator.main(DataGenerator.java:25)

 

 

然后分别做一下测试 先把batch_size设置为10 每10次 flush和clear:

正在插入
1:37
2:72
3:108
4:144
.......

 50和100的测试和这个结果也大同小异就不测试了

 

 

 

 

其他的以后再写了..

 

 

 

 

代码:

package org.cc.data.test;

import javax.persistence.Column;
import javax.persistence.Entity;
import javax.persistence.GeneratedValue;
import javax.persistence.Id;
import javax.persistence.Table;

import org.hibernate.annotations.GenericGenerator;

@Entity
@Table(name="testEntity2")
public class TestEntity {
	
	@Id
	@GenericGenerator(strategy="uuid", name = "uuid")
	@GeneratedValue(generator="uuid")
	private String id;
	
	@Column(name="name")
	private String name;
	
	@Column(name="description")
	private String description;
 
	public TestEntity(String name, String description) {
		super();
		this.name = name;
		this.description = description;
	}

	public String getId() {
		return id;
	}

	public void setId(String id) {
		this.id = id;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public String getDescription() {
		return description;
	}

	public void setDescription(String description) {
		this.description = description;
	}


	
}

 

package org.cc.data.test;


import org.hibernate.Session;
import org.hibernate.SessionFactory;
import org.hibernate.Transaction;
import org.hibernate.cfg.Configuration;
import org.hibernate.service.ServiceRegistry;
import org.hibernate.service.ServiceRegistryBuilder;

public class DataGenerator {

	public static void main(String[] args) {
		 Configuration cfg = new Configuration().configure();
		 ServiceRegistry sr = new ServiceRegistryBuilder().applySettings(
				cfg.getProperties()).buildServiceRegistry();
		 SessionFactory sf=cfg.buildSessionFactory(sr);
         Session session=sf.openSession();
         Transaction trans=session.beginTransaction();
         long timeNow=System.currentTimeMillis();
         System.out.println("正在插入");
         int count=0;
         for(int i=0;i<10000000;i++){
        	 TestEntity tes=new TestEntity("cc"+i,"desc:"+i);
        	 session.save(tes);
        	 ++count;
        	 if ((count) % 50 == 0 ) {//100,与JDBC批量设置相同
     	        session.flush();
     	        session.clear();
     	    }
        	 if(count%100000 ==0 ){
        		 long timeTemp=System.currentTimeMillis();
        		 System.out.println((count / 100000)+":"+((timeTemp-timeNow)/1000));
        	 }
        	 
         }
         
         trans.commit();
         session.close();
         long timeNow2=System.currentTimeMillis();
         System.out.println("time past:"+(timeNow2-timeNow));
	}

}

 

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE hibernate-configuration PUBLIC "-//Hibernate/Hibernate Configuration DTD 3.0//EN"
                                         "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd">
<hibernate-configuration>
 <session-factory>
  <property name="hibernate.connection.driver_class">com.mysql.jdbc.Driver</property>
  <property name="hibernate.connection.password">密码</property>
  <property name="hibernate.connection.url">jdbc:mysql://localhost:3306/test</property>
  <property name="hibernate.connection.username">用户名</property>
  <property name="hibernate.dialect">org.hibernate.dialect.MySQLDialect</property>
  <property name="hibernate.show_sql">false</property>
  <property name="hibernate.format_sql">true</property>
  <property name="hibernate.jdbc.batch_size">50</property> 
  <mapping class="org.cc.data.test.TestEntity"/>
 </session-factory>
</hibernate-configuration>

 

分享到:
评论

相关推荐

    串口数据采集并自动写入MySQL数据软件

    “串口数据采集入MySQL数据库”软件是传感器网络记录数据的一般工具。最主要核心功能是把串口上接收到的数据,以字符串数据...达到采集串口上获取数据存入MySQL数据库的作用,进而可以使用各种算法和方法处理这些数据。

    串口数据采集入MySQL数据库V2.0

    本文将深入探讨如何利用串口通信技术将数据采集并存入MySQL数据库,以实现高效的数据管理和分析。我们将重点关注“串口数据采集入MySQL数据库V2.0”这一系统,了解其核心功能和工作原理。 串口通信,又称串行通信,...

    爬取数据并存储到mysql

    - 数据去重:在插入数据前,检查是否已存在相同的记录,避免重复插入。 总结来说,从爬取数据到存储到MySQL数据库,涉及Python爬虫技术、HTML解析、数据库操作以及网络请求等多个方面。掌握这些技能,能让我们有效...

    PHP实现SQL_Server数据导入到Mysql数据库

    在提取完数据后,下一步就是将这些数据导入到MySQL数据库中。这可以通过`mysql_query`函数完成,其中包含一个插入语句: ```php if ($Submit2 == true) { $query = mysql_query("INSERT INTO tb_book (name, ...

    SpringBoot定时任务实现Oracle和mysql数据同步

    - **增量同步**:只同步自上次同步以来发生变化的数据,这需要在数据库中记录每个数据的最后修改时间。 - **全量同步**:每次同步都获取全部数据,适合于数据量不大或者初始同步的情况。 - **异步处理**:为了避免...

    OPC服务器软件KEPServer实现与MySQL连接

    在配置 Data Logger 设置时,需要选择合适的数据记录方式和数据存储路径。 7. OPC 服务器软件 KEPServer 与 MySQL 数据库之间的数据交互 KEPServer 软件与 MySQL 数据库之间的数据交互是通过 ODBC 驱动实现的。KEP...

    使用VBA将excel的数据存放到mysql数据库里面,并将内容显示到sheet数据表

    本教程将详细介绍如何使用VBA将Excel数据存入MySQL数据库,并将结果回显到Sheet数据表中。 首先,我们需要安装MySQL ODBC驱动程序,这将允许VBA通过ODBC数据源与MySQL数据库进行通信。安装完成后,在“控制面板”的...

    多线程爬取在线课程并存入MySQL数据库

    5. **数据存储与处理**:在将爬取的数据存入MySQL之前,通常需要进行预处理,例如去除空格、异常值处理、数据类型转换等。Python的pandas库提供了一套强大的数据处理工具,可以方便地对数据进行清洗和格式化。 6. *...

    组态王记录数据到mysql操作方法.docx

    "组态王记录数据到MySQL操作方法"这个文档提供了一个详细的过程,教导用户如何将中控系统的数据有效存入MySQL数据库。以下是对这个过程的详细解释: 1. **安装MySQL**:首先,你需要在你的服务器或工作站上安装...

    C语言CGI商业程序,可上传图片存入mysql数据库

    总结来说,"C语言CGI商业程序,可上传图片存入mysql数据库"是一个结合了C语言编程、CGI技术和MySQL数据库的Web应用解决方案。它提供了一种方式让用户通过Web界面上传图片,并将这些图片的信息安全地存储在MySQL...

    图片存入mySql数据库.pdf

    3. 使用`PreparedStatement`执行SQL插入语句,将图片的描述和二进制数据存入数据库。 插入图片时,使用了`PreparedStatement`的`setBinaryStream`方法,这是处理大量二进制数据时推荐的方法,它可以有效避免内存...

    QT QTablewidget联合mysql数据库的使用

    在本文中,我们将深入探讨如何在QT环境中使用QTableWidget结合MySQL数据库进行数据操作。QTableWidget是QT库中的一个组件,它允许我们创建和展示二维表格数据,而MySQL则是一种广泛使用的开源关系型数据库管理系统。...

    Python3实现的爬虫爬取数据并存入mysql数据库操作示例

    本文实例讲述了Python3实现的爬虫爬取数据并存入mysql数据库操作。分享给大家供大家参考,具体如下: 爬一个电脑客户端的订单。罗总推荐,抓包工具用的是HttpAnalyzerStdV7,与chrome自带的F12类似。客户端有接单...

    爬取在线课程并存入MySQL数据库.zip

    在本项目中,“爬取在线课程并存入MySQL数据库.zip”是一个包含教程或代码实例的压缩包,旨在教授如何使用Python进行网页数据抓取,并将抓取到的在线课程信息存储到MySQL数据库中。这个过程涉及到多个关键知识点,...

    捕获用户上网记录和使用程序记录 ,并存入数据库

    VC++捕获用户上网记录和使用程序记录 ,并存入数据库,其中有个Shell Hook是钩子程序,wmi是主程序,数据库用的是Mysql,直接导入结果就行(sql文件),最好在 xp情况下运行,本机测试用的是win7,因此 在捕获数据时,...

    java使用javacsv读取csv文件 导入Mysql数据库

    在Java编程中,将CSV(逗号分隔值)文件的数据导入到MySQL数据库是一项常见的任务。这个过程涉及几个关键步骤,包括读取CSV文件、解析数据、建立与数据库的连接以及执行SQL插入语句。本篇文章将详细讲解如何使用java...

    爬取在线课程并存入MySQL数据库.rar

    在IT行业中,数据抓取(Web ...以上就是从"爬取在线课程并存入MySQL数据库"项目中涉及的主要技术点和实践过程。学习和掌握这些技能,不仅可以应用于教育领域,还能在其他需要网络数据采集和存储的场景中发挥作用。

    多进程爬取在线课程并存入MySQL数据库.rar

    在本项目"多进程爬取在线课程并存入MySQL数据库"中,开发者利用了这一特性来优化网络爬虫的性能,以更高效地抓取在线课程信息,并将获取的数据存储到MySQL数据库中。以下将详细讲解多进程爬取和数据库存储的相关知识...

    多进程爬取在线课程并存入MySQL数据库.zip

    在Python编程领域,多进程爬取在线课程并存入MySQL数据库是一种常见的数据获取与存储方法。这个项目涉及到了网络爬虫、多进程处理以及数据库操作等核心知识点,下面将逐一详细解析。 首先,网络爬虫是自动抓取...

    网络爬虫-多进程爬取在线课程并存入MySQL数据库-Python源码示例.zip

    该压缩包文件“网络爬虫-多进程爬取在线课程并存入MySQL数据库-Python源码示例.zip”提供了一个Python实现的网络爬虫项目,旨在通过多进程技术抓取在线课程信息,并将数据存储到MySQL数据库中。这个项目涵盖了以下几...

Global site tag (gtag.js) - Google Analytics