存入1千万条数据,用hibernate存
数据的定义都很简单:
create table testEntity2 ( id varchar(255) not null, description varchar(255), name varchar(255), primary key (id) )
主键生成策略UUID
防止数据过大
设置 <property name="hibernate.jdbc.batch_size">50</property>
同时代码里也是50次 flush一下 clear一下 在eclipse的环境中 内存占用在500M左右
每10w条打印一次 如果不使用batch_size 也不flush和clear 内存会在2G左右
并且也会发生内存溢出的错误:(但前面几次的速度非常可观 到第280万条的时候堆溢出)
但这些只是存在session的缓存里 没有真正uncommit到数据库 所以到底有多快...不好说...
正在插入 1:1 2:2 3:2 4:3 5:3 6:5 7:5 8:7 9:7 10:7 11:8 12:8 13:8 14:11 15:11 16:11 17:12 18:15 19:15 20:15 21:16 22:16 23:17 24:17 25:24 26:28 27:35 28:49 Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded at org.hibernate.engine.internal.StatefulPersistenceContext.addEntry(StatefulPersistenceContext.java:539) at org.hibernate.event.internal.AbstractSaveEventListener.performSaveOrReplicate(AbstractSaveEventListener.java:249) at org.hibernate.event.internal.AbstractSaveEventListener.performSave(AbstractSaveEventListener.java:192) at org.hibernate.event.internal.AbstractSaveEventListener.saveWithGeneratedId(AbstractSaveEventListener.java:135) at org.hibernate.event.internal.DefaultSaveOrUpdateEventListener.saveWithGeneratedOrRequestedId(DefaultSaveOrUpdateEventListener.java:206) at org.hibernate.event.internal.DefaultSaveEventListener.saveWithGeneratedOrRequestedId(DefaultSaveEventListener.java:55) at org.hibernate.event.internal.DefaultSaveOrUpdateEventListener.entityIsTransient(DefaultSaveOrUpdateEventListener.java:191) at org.hibernate.event.internal.DefaultSaveEventListener.performSaveOrUpdate(DefaultSaveEventListener.java:49) at org.hibernate.event.internal.DefaultSaveOrUpdateEventListener.onSaveOrUpdate(DefaultSaveOrUpdateEventListener.java:90) at org.hibernate.internal.SessionImpl.fireSave(SessionImpl.java:764) at org.hibernate.internal.SessionImpl.save(SessionImpl.java:756) at org.hibernate.internal.SessionImpl.save(SessionImpl.java:752) at org.cc.data.test.DataGenerator.main(DataGenerator.java:25)
然后分别做一下测试 先把batch_size设置为10 每10次 flush和clear:
正在插入
1:37
2:72
3:108
4:144
.......
1:37
2:72
3:108
4:144
.......
50和100的测试和这个结果也大同小异就不测试了
其他的以后再写了..
代码:
package org.cc.data.test; import javax.persistence.Column; import javax.persistence.Entity; import javax.persistence.GeneratedValue; import javax.persistence.Id; import javax.persistence.Table; import org.hibernate.annotations.GenericGenerator; @Entity @Table(name="testEntity2") public class TestEntity { @Id @GenericGenerator(strategy="uuid", name = "uuid") @GeneratedValue(generator="uuid") private String id; @Column(name="name") private String name; @Column(name="description") private String description; public TestEntity(String name, String description) { super(); this.name = name; this.description = description; } public String getId() { return id; } public void setId(String id) { this.id = id; } public String getName() { return name; } public void setName(String name) { this.name = name; } public String getDescription() { return description; } public void setDescription(String description) { this.description = description; } }
package org.cc.data.test; import org.hibernate.Session; import org.hibernate.SessionFactory; import org.hibernate.Transaction; import org.hibernate.cfg.Configuration; import org.hibernate.service.ServiceRegistry; import org.hibernate.service.ServiceRegistryBuilder; public class DataGenerator { public static void main(String[] args) { Configuration cfg = new Configuration().configure(); ServiceRegistry sr = new ServiceRegistryBuilder().applySettings( cfg.getProperties()).buildServiceRegistry(); SessionFactory sf=cfg.buildSessionFactory(sr); Session session=sf.openSession(); Transaction trans=session.beginTransaction(); long timeNow=System.currentTimeMillis(); System.out.println("正在插入"); int count=0; for(int i=0;i<10000000;i++){ TestEntity tes=new TestEntity("cc"+i,"desc:"+i); session.save(tes); ++count; if ((count) % 50 == 0 ) {//100,与JDBC批量设置相同 session.flush(); session.clear(); } if(count%100000 ==0 ){ long timeTemp=System.currentTimeMillis(); System.out.println((count / 100000)+":"+((timeTemp-timeNow)/1000)); } } trans.commit(); session.close(); long timeNow2=System.currentTimeMillis(); System.out.println("time past:"+(timeNow2-timeNow)); } }
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE hibernate-configuration PUBLIC "-//Hibernate/Hibernate Configuration DTD 3.0//EN" "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd"> <hibernate-configuration> <session-factory> <property name="hibernate.connection.driver_class">com.mysql.jdbc.Driver</property> <property name="hibernate.connection.password">密码</property> <property name="hibernate.connection.url">jdbc:mysql://localhost:3306/test</property> <property name="hibernate.connection.username">用户名</property> <property name="hibernate.dialect">org.hibernate.dialect.MySQLDialect</property> <property name="hibernate.show_sql">false</property> <property name="hibernate.format_sql">true</property> <property name="hibernate.jdbc.batch_size">50</property> <mapping class="org.cc.data.test.TestEntity"/> </session-factory> </hibernate-configuration>
相关推荐
“串口数据采集入MySQL数据库”软件是传感器网络记录数据的一般工具。最主要核心功能是把串口上接收到的数据,以字符串数据...达到采集串口上获取数据存入MySQL数据库的作用,进而可以使用各种算法和方法处理这些数据。
本文将深入探讨如何利用串口通信技术将数据采集并存入MySQL数据库,以实现高效的数据管理和分析。我们将重点关注“串口数据采集入MySQL数据库V2.0”这一系统,了解其核心功能和工作原理。 串口通信,又称串行通信,...
- 数据去重:在插入数据前,检查是否已存在相同的记录,避免重复插入。 总结来说,从爬取数据到存储到MySQL数据库,涉及Python爬虫技术、HTML解析、数据库操作以及网络请求等多个方面。掌握这些技能,能让我们有效...
在提取完数据后,下一步就是将这些数据导入到MySQL数据库中。这可以通过`mysql_query`函数完成,其中包含一个插入语句: ```php if ($Submit2 == true) { $query = mysql_query("INSERT INTO tb_book (name, ...
- **增量同步**:只同步自上次同步以来发生变化的数据,这需要在数据库中记录每个数据的最后修改时间。 - **全量同步**:每次同步都获取全部数据,适合于数据量不大或者初始同步的情况。 - **异步处理**:为了避免...
在配置 Data Logger 设置时,需要选择合适的数据记录方式和数据存储路径。 7. OPC 服务器软件 KEPServer 与 MySQL 数据库之间的数据交互 KEPServer 软件与 MySQL 数据库之间的数据交互是通过 ODBC 驱动实现的。KEP...
本教程将详细介绍如何使用VBA将Excel数据存入MySQL数据库,并将结果回显到Sheet数据表中。 首先,我们需要安装MySQL ODBC驱动程序,这将允许VBA通过ODBC数据源与MySQL数据库进行通信。安装完成后,在“控制面板”的...
5. **数据存储与处理**:在将爬取的数据存入MySQL之前,通常需要进行预处理,例如去除空格、异常值处理、数据类型转换等。Python的pandas库提供了一套强大的数据处理工具,可以方便地对数据进行清洗和格式化。 6. *...
"组态王记录数据到MySQL操作方法"这个文档提供了一个详细的过程,教导用户如何将中控系统的数据有效存入MySQL数据库。以下是对这个过程的详细解释: 1. **安装MySQL**:首先,你需要在你的服务器或工作站上安装...
总结来说,"C语言CGI商业程序,可上传图片存入mysql数据库"是一个结合了C语言编程、CGI技术和MySQL数据库的Web应用解决方案。它提供了一种方式让用户通过Web界面上传图片,并将这些图片的信息安全地存储在MySQL...
3. 使用`PreparedStatement`执行SQL插入语句,将图片的描述和二进制数据存入数据库。 插入图片时,使用了`PreparedStatement`的`setBinaryStream`方法,这是处理大量二进制数据时推荐的方法,它可以有效避免内存...
在本文中,我们将深入探讨如何在QT环境中使用QTableWidget结合MySQL数据库进行数据操作。QTableWidget是QT库中的一个组件,它允许我们创建和展示二维表格数据,而MySQL则是一种广泛使用的开源关系型数据库管理系统。...
本文实例讲述了Python3实现的爬虫爬取数据并存入mysql数据库操作。分享给大家供大家参考,具体如下: 爬一个电脑客户端的订单。罗总推荐,抓包工具用的是HttpAnalyzerStdV7,与chrome自带的F12类似。客户端有接单...
在本项目中,“爬取在线课程并存入MySQL数据库.zip”是一个包含教程或代码实例的压缩包,旨在教授如何使用Python进行网页数据抓取,并将抓取到的在线课程信息存储到MySQL数据库中。这个过程涉及到多个关键知识点,...
VC++捕获用户上网记录和使用程序记录 ,并存入数据库,其中有个Shell Hook是钩子程序,wmi是主程序,数据库用的是Mysql,直接导入结果就行(sql文件),最好在 xp情况下运行,本机测试用的是win7,因此 在捕获数据时,...
在Java编程中,将CSV(逗号分隔值)文件的数据导入到MySQL数据库是一项常见的任务。这个过程涉及几个关键步骤,包括读取CSV文件、解析数据、建立与数据库的连接以及执行SQL插入语句。本篇文章将详细讲解如何使用java...
在IT行业中,数据抓取(Web ...以上就是从"爬取在线课程并存入MySQL数据库"项目中涉及的主要技术点和实践过程。学习和掌握这些技能,不仅可以应用于教育领域,还能在其他需要网络数据采集和存储的场景中发挥作用。
在本项目"多进程爬取在线课程并存入MySQL数据库"中,开发者利用了这一特性来优化网络爬虫的性能,以更高效地抓取在线课程信息,并将获取的数据存储到MySQL数据库中。以下将详细讲解多进程爬取和数据库存储的相关知识...
在Python编程领域,多进程爬取在线课程并存入MySQL数据库是一种常见的数据获取与存储方法。这个项目涉及到了网络爬虫、多进程处理以及数据库操作等核心知识点,下面将逐一详细解析。 首先,网络爬虫是自动抓取...
该压缩包文件“网络爬虫-多进程爬取在线课程并存入MySQL数据库-Python源码示例.zip”提供了一个Python实现的网络爬虫项目,旨在通过多进程技术抓取在线课程信息,并将数据存储到MySQL数据库中。这个项目涵盖了以下几...