`
ganliang13
  • 浏览: 252830 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
最近在做一些基于mapreduce 操作hbase 表的工作,碰到了几个问题。   一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即hbase提供的HFileOutputFormat类。 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。   1.reduce 在写的时候由于词排序问题导致程序运行异常。 ...
文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 有关预分区,详情参见:T ...
用Eclipse提交hadoop 程序提交时总是发现有些类不存在,只好用EJob这个类辅助成功。 这个类主要用于把hadoop程序打包,并从本机发到集群 import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.net.URL; import java.net.URLClassLoader; import java.util.ArrayList; import java.util. ...
google ip: 203.208.46.147   技术博客: hadoop,hbase,hive分类:http://www.shangxueba.com/jingyan/753404.htmlhttp://zz563143188.iteye.com/blog/1877266http://www.cnblogs.com/xia520pi/ hadoop hbase 三江小渡 :http://blog.pureisle.net/hadoop_recommend hadoop hbase 量子道客 :http://blog.linezing.com/ 淘宝技术博客:http: ...
Hadoop集群(第7期)_Eclipse开发环境设置 1、Hadoop开发环境简介 1.1 Hadoop集群简介   Java版本:jdk-6u31-linux-i586.bin   Linux系统:CentOS6.0   Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介   Java版本:jdk-6u31-windows-i586.exe   ...
package com.bfd.test; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.apache.commons.lang.math.NumberUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apac ...
 hadoop mr 输出需要导入hbase的话最好先输出成HFile格式, 再导入到HBase,因为HFile是HBase的内部存储格式, 所以导入效率很高,下面是一个示例 1. 创建HBase表t1 hbase(main):157:0* create 't1','f1'  0 row(s) in 1.3280 seconds    hbase(main):158: ...
package com.bfd.test; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.apache.commons.lang.math.NumberUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apa ...
在使用HBase Put API的时候,有几个会影响性能的因素。 1.Put List Size HBase的Put支持单条插入,也支持批量插入。 2. AutoFlush AutoFlush指的是在每次调用HBase的Put操作,是否提交到HBase Server。 默认是true,每次会提交。如果此时是单条插入,就会有更多的IO,从而降低性能 3.Write Buffer Size Write Buffer Size在AutoFlush为false的时候起作用,默认是2MB,也就是当插入数据超过2MB,就会自动提交到Server 4.WAL WAL是Writ ...
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 1. 简介 HBase 是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个 ...
Hive 是facebook开源的一个基于hadoop框架的查询工具,也就是说,需要用hive的话,就要先安装hadoop。这次是小结一下最近用hive的心得,经验分享。hadoop和hive,pig,hbase的安装配置以后专门另开个连载说比较好。   所以,我假设你 ...
  一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(1 ...
DELETE删除多表数据,怎样才能同时删除多个关联表的数据呢?这里做了深入的解释: 1、 delete from t1 where 条件 2、delete t1 from t1 where 条件 3、 delete t1 from t1,t2 where 条件 4、delete t1,t2 from t1,t2 where 条件 前 3者是可行的,第4者不可行。 也就是简单用delete语句无法进行多表删除数据操作,不过可以建立级联删除,在两个表之间建立级联删除关系,则可以实现删除一个表的数据时,同时删除另一个表中相关的数据。 1、从数据表t1中把那些id值在数据表t2里有匹配的记 ...

shell的并发

#!/bin/bash date;echo "=========begin" for ((i=0;i<5;i++));do  {  sleep 3;echo "done"  }& done wait date;echo "=========end"
1.在WEB-INF 下建立文件manifest,写入如下内容:Manifest-Version: 1.0Class-Path: lib/*.jar2.File-> Export->JAR File 3.Next->...进入到JAR Manifest Specification 选择Use existing manifest from workspace Manifest file 输入:/项目名/manifest   4.点击finish
Global site tag (gtag.js) - Google Analytics