`
whtmonkey
  • 浏览: 2025 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类
最新评论

大数据处理一些总结

 
阅读更多

使用JDBC处理大数据 在实际开发中,程序需要把大文本或二进制数据保存到数据库。 基本概念:大数据也称之为LOB(Large Objects),LOB又分为:clob和blob
(a)clob用于存储大文本。(mysql 中采用Text)
(b)blob用于存储二进制数据,例如图像、声音、二进制文等。
对MySQL而言只有blob,而没有clob,mysql存储大文本采用的是Text,其体系中的Text和blob分别又分为:
(a)Text ——TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT
(b)blob ——TINYBLOB、BLOB、MEDIUMBLOB和LONGBLOB

 

 

 

 


 

使用JDBC进行批处理

 

    业务场景:当需要向数据库发送一批SQL语句执行时,应避免向数据库一条条的发送执行,而应采用JDBC的批处理机制,以提升执行效率。

 

    实现批处理有两种方式,

 

            第一种方式: Statement.addBatch(sql) (其实是将sql语句 放在了一个 list 集合中。)

 

            第二种方式:  PreparedStatement.addBatch() (其实是将sql语句 放在了一个 list 集合中。)

 

    执行批处理SQL语句

 

            executeBatch()方法:执行批处理命令

 

            clearBatch()方法:清除批处理命令(实际上是清除 List集合中的SQL语句,否则会造成内存溢出。)

 

 

 

Oracle中大数据处理

 

        Oracle定义了一个BLOB字段用于保存二进制数据,但这个字段并不能存放真正的二进制数据,只能向这个字段存一个指针,然后把数据放到指针所指向的Oracle的LOB段中, LOB段是在数据库内部表的一部分。

 

        因而在操作Oracle的Blob之前,必须获得指针(定位器)才能进行Blob数据的读取和写入。

 

        如何获得表中的Blob指针呢? 可以先使用insert语句向表中插入一个空的blob(调用oracle的函数empty_blob()  ),这将创建一个blob的指针,然后再把这个empty的blob的指针查询出来,这样就可得到BLOB对象,从而读写blob数据了。

 

 

    Oracle中LOB类型的处理步骤

 

    (1)  插入空blob ——  insert into test(id,image) values(?,empty_blob());

 

    (2)  获得blob的cursor ——  select image from test where id= ? for update;  

 

                                                      Blob b = rs.getBlob(“image”);

 

        注意:  须加for update,锁定该行,直至该行被修改完毕,保证不产生并发冲突。

 

    (3)  利用 io,和获取到的cursor往数据库读写数据

 

        注意:以上操作需开启事务。

 

 Demo样例:第一种方式:Statement.addBatch(sql)

 

 

 

@Test
 public void test1() throws SQLException{
 
            Connection conn = null;
 
            Statement st = null;
 
            ResultSet rs = null;
 
            try {
 
                    conn = JdbcUtil.getConnection();
 
                    String sql1 = "insert into user(name,password,email,birthday)  values('kkk','123','abc@sina.com','1978-08-08')";
 
                    String sql2 = "update user set password='123456' where id=3";
 
                    st = conn.createStatement();
 
                    st.addBatch(sql1);  //把SQL语句加入到批命令中
 
                    st.addBatch(sql2);  //把SQL语句加入到批命令中
 
                    st.executeBatch();
 
                    st.clearBatch();
 
            } finally{
 
                 JdbcUtil.free(conn, st, rs);
 
            }
 
 }

 

 

 

采用Statement.addBatch(sql)方式实现批处理的优缺点

 

        优点:可以向数据库发送多条不同的SQL语句。

 

        缺点:SQL语句没有预编译。当向数据库发送多条语句相同,但仅参数不同的SQL语句时,需重复写上很多条SQL语句。

 

            例如:

 

               Insert into user(name,password) values(‘aa’,’111’);

 

               Insert into user(name,password) values(‘bb’,’222’);

 

               Insert into user(name,password) values(‘cc’,’333’);

 

               Insert into user(name,password) values(‘dd’,’444’);

 

 


 实现批处理的第二种方式:PreparedStatement.addBatch() 

 

    Demo样例:第二种 方式

@Test
 public void test2() throws SQLException{
 
        conn = JdbcUtil.getConnection();
 
        String sql = "insert into user(name,password,email,birthday) values(?,?,?,?)";
 
        st = conn.prepareStatement(sql);
 
        for(int i=0;i<50000;i++){
 
                st.setString(1, "aaa" + i);
 
                st.setString(2, "123" + i);
 
                st.setString(3, "aaa" + i + "@sina.com");
 
                st.setDate(4,new Date(1980, 10, 10));
 
                 
 
                st.addBatch();
 
                if(i%1000==0){      //为防止(list集合) 内存溢出:设定每累加1000条数据就向数据库发送一次
 
                        st.executeBatch();
 
                        st.clearBatch();
 
                }
 
        }
 
        st.executeBatch(); //当剩余的条数小于1000条时就不会被发送到数据库,所以此处要在发送一次。
 
}

 采用PreparedStatement.addBatch()实现批处理的优缺点

 

 

    优点:发送的是预编译后的SQL语句,执行效率高。

 

    缺点:只能应用在SQL语句相同,但参数不同的批处理中。因此此种形式的批处理经常用于在同一个表中批量插入数据,或批量更新表的数据。

 

分享到:
评论

相关推荐

    大数据处理技术的总结与分析报告.docx

    大数据处理技术的总结与分析报告 本文对大数据处理技术进行了总结和分析,涵盖了事务型处理、数据统计分析和数据挖掘三个方面的知识点。 事务型处理 事务型处理是指在实际生活中常见的数据处理需求,例如淘宝交易...

    大数据处理技术的总结与分析.doc

    大数据处理技术的总结与分析

    大数据量,海量数据 处理方法总结

    大数据量,海量数据,处理方法总结,面试必备。

    大数据量_海量数据_处理方法总结

    下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目...

    分布式系统和大数据处理相关知识总结

    当谈到分布式系统和大数据处理时,以下是一重要的知识总结: 1. 分布式系统:分布式系统是由多个独立计算机组成的网络,这些计算机通过消息传递进行通信和协调,以实现共同的目标。关键概念包括: - 水平扩展:...

    大数据量,海量数据 处理方法总结.pdf

    这些技术是大数据量和海量数据处理的基石,在数据科学、网络分析、搜索引擎优化等众多领域有着广泛的应用。在实际使用过程中,可以根据数据的特性和处理需求灵活选择合适的处理方法,并结合问题实例进一步理解和掌握...

    海量数据处理方法总结

    海量数据处理方法总结

    海量 大数据量 数据 处理总结

    海量数据 大数据量 处理的算法和数据结构 对面试IT公司的人非常有用!

    大数据处理技术的总结与分析.docx

    大数据处理技术的总结与分析 大数据处理技术主要涵盖三个核心领域:事务型处理、数据统计分析和数据挖掘。这些技术在现代信息技术中扮演着至关重要的角色,特别是在面对海量数据和高并发需求时。 1. 事务型处理 ...

    大数据量,海量数据 处理方法总结.pdf

    本文将总结一些常见的大数据处理方法,包括Bloom Filter、Hashing和Bit-Map,它们在处理大规模数据时能有效提高效率并节省资源。 1. **Bloom Filter** Bloom Filter是一种空间效率极高的概率型数据结构,用于判断...

    大数据处理技术的总结与分析(20211222094739).pdf

    大数据处理技术的总结与分析(20211222094739).pdf

    常用大数据量、海量数据处理方法__算法总结.pdf

    大数据与海量数据处理算法总结 在当今数据爆炸的时代,大数据处理是IT行业的一个热点。无论是社交网络、电子...通过总结这些常用的大数据处理算法,可以在实际工作中更有效地解决问题,提高数据处理的效率和准确性。

    大数据处理技术的总结和分析.pdf

    大数据处理技术的总结和分析 本文档对大数据处理技术进行了总结和分析,涵盖了事务型处理、数据统计分析和数据挖掘三个方面的知识点。 事务型处理 事务型处理是指在实际生活中常见的数据处理需求,例如淘宝网站...

    GPS测量与数据处理(课件)

    GPS测量与数据处理的知识点主要涵盖了以下几个方面: 1. GPS控制测量基础概念 - GPS控制测量是指利用全球定位系统(Global Positioning System,GPS)进行的测量工作,它允许用户在地球上的任何位置实时地获取三维...

    大数据处理技术的总结与分析报告.doc

    大数据处理技术的总结与分析报告.doc

Global site tag (gtag.js) - Google Analytics