基于mapreduce hbase操作血的教训

博客分类：

hbase

最近在做一些基于mapreduce 操作hbase 表的工作，碰到了几个问题。一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即hbase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配合mapreduce完成，高效便捷，而且不占用region资源，增添负载。 1.reduce 在写的时候由于词排序问题导致程序运行异常。 ...

2013-06-09 15:49
浏览 15349
评论(0)
分类:编程语言

hbase 优化

博客分类：

hbase

hbase 优化 region mapreduce

文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，这里涉及的不多，这部分可以参考：淘宝Ken Wu同学的博客。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。有关预分区，详情参见：T ...

2013-06-07 20:01
浏览 1621
评论(0)
分类:编程语言

Eclipse本地机提交hadoop程序至集群

博客分类：

hadoop

hadoop 本地集群提交

用Eclipse提交hadoop 程序提交时总是发现有些类不存在，只好用EJob这个类辅助成功。这个类主要用于把hadoop程序打包，并从本机发到集群 import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.net.URL; import java.net.URLClassLoader; import java.util.ArrayList; import java.util. ...

2013-05-30 17:13
浏览 1521
评论(0)
分类:编程语言

个人网址备忘管理

博客分类：

心情日志

google ip: 203.208.46.147 技术博客： hadoop,hbase,hive分类:http://www.shangxueba.com/jingyan/753404.htmlhttp://zz563143188.iteye.com/blog/1877266http://www.cnblogs.com/xia520pi/ hadoop hbase 三江小渡 :http://blog.pureisle.net/hadoop_recommend hadoop hbase 量子道客：http://blog.linezing.com/ 淘宝技术博客:http: ...

2013-05-30 17:02
浏览 979
评论(0)
分类:研发管理

hadoop 集群Eclipse设置

博客分类：

hadoop

hadoop 本地集群提交

Hadoop集群（第7期）_Eclipse开发环境设置 1、Hadoop开发环境简介 1.1 Hadoop集群简介　　Java版本：jdk-6u31-linux-i586.bin 　　Linux系统：CentOS6.0 　　Hadoop版本：hadoop-1.0.0.tar.gz 1.2 Windows开发简介　　Java版本：jdk-6u31-windows-i586.exe 　 ...

2013-05-30 16:21
浏览 1389
评论(0)
分类:编程语言

java api 操作hdfs文件

博客分类：

hadoop

java hdfs 读写删除文件

package com.bfd.test; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.apache.commons.lang.math.NumberUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apac ...

2013-05-23 16:48
浏览 1442
评论(0)
分类:编程语言

HBase 之HFileOutputFormat

博客分类：

hbase

mapreduce hbase put

hadoop mr 输出需要导入hbase的话最好先输出成HFile格式，再导入到HBase,因为HFile是HBase的内部存储格式，所以导入效率很高,下面是一个示例 1. 创建HBase表t1 hbase(main):157:0* create 't1','f1' 0 row(s) in 1.3280 seconds hbase(main):158: ...

2013-05-17 17:44
浏览 2002
评论(0)
分类:编程语言

Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询

博客分类：

hbase

hbase 增删改查模糊查询条件查询

package com.bfd.test; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.apache.commons.lang.math.NumberUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apa ...

2013-05-08 12:01
浏览 3715
评论(0)
分类:编程语言

put批量提交hbase性能改善

博客分类：

hbase

hbase put 批量性能改善

在使用HBase Put API的时候，有几个会影响性能的因素。 1.Put List Size HBase的Put支持单条插入，也支持批量插入。 2. AutoFlush AutoFlush指的是在每次调用HBase的Put操作，是否提交到HBase Server。默认是true,每次会提交。如果此时是单条插入，就会有更多的IO,从而降低性能 3.Write Buffer Size Write Buffer Size在AutoFlush为false的时候起作用，默认是2MB,也就是当插入数据超过2MB,就会自动提交到Server 4.WAL WAL是Writ ...

2013-05-06 18:27
浏览 9471
评论(0)
分类:编程语言

hbase 数据模型详解

博客分类：

hbase

hbase 数据模型命令操作详解

HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。 1. 简介 HBase 是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个 ...

2013-04-27 11:14
浏览 2303
评论(0)
分类:研发管理

Hive SQL使用和数据加载的一点总结

博客分类：

hive

Hive 是facebook开源的一个基于hadoop框架的查询工具，也就是说，需要用hive的话，就要先安装hadoop。这次是小结一下最近用hive的心得，经验分享。hadoop和hive，pig，hbase的安装配置以后专门另开个连载说比较好。所以，我假设你 ...

2013-01-14 21:18
浏览 1348
评论(0)
分类:数据库

hive优化之------控制hive任务中的map数和reduce数

博客分类：

hive

一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（1 ...

2013-01-14 21:15
浏览 1107
评论(0)
分类:研发管理

根据表删除另一个表

博客分类：

mysql

DELETE删除多表数据，怎样才能同时删除多个关联表的数据呢？这里做了深入的解释： 1、 delete from t1 where 条件 2、delete t1 from t1 where 条件 3、 delete t1 from t1,t2 where 条件 4、delete t1,t2 from t1,t2 where 条件前 3者是可行的，第4者不可行。也就是简单用delete语句无法进行多表删除数据操作，不过可以建立级联删除，在两个表之间建立级联删除关系，则可以实现删除一个表的数据时，同时删除另一个表中相关的数据。 1、从数据表t1中把那些id值在数据表t2里有匹配的记 ...

2013-01-09 14:17
浏览 1239
评论(0)
分类:数据库

shell的并发

博客分类：

linux

shell 并发

#!/bin/bash date;echo "=========begin" for ((i=0;i<5;i++));do { sleep 3;echo "done" }& done wait date;echo "=========end"

2012-12-21 17:12
浏览 971
评论(0)
分类:编程语言

Eclipse导出jar包且包含lib中的jar

博客分类：

java

Eclipse 导出jar包含lib

1.在WEB-INF 下建立文件manifest,写入如下内容:Manifest-Version: 1.0Class-Path: lib/*.jar2.File-> Export->JAR File 3.Next->...进入到JAR Manifest Specification 选择Use existing manifest from workspace Manifest file 输入:/项目名/manifest 4.点击finish

2012-12-19 20:11
浏览 3337
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于mapreduce hbase操作血的教训

hbase 优化

Eclipse本地机提交hadoop程序至集群

个人网址备忘管理

hadoop 集群Eclipse设置

java api 操作hdfs文件

HBase 之HFileOutputFormat

Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询

put批量提交hbase性能改善

hbase 数据模型详解

Hive SQL使用和数据加载的一点总结

hive优化之------控制hive任务中的map数和reduce数

根据表删除另一个表

shell的并发

Eclipse导出jar包且包含lib中的jar

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>