- 浏览: 252830 次
- 性别:
- 来自: 北京
最新评论
-
cys1314:
太给力了,多谢
Excel下拉列表多选框实现 -
兜兜没有糖:
你好 我想请问一下,进入新浪微博授权页面, 新浪微博会以地址形 ...
利用java如何授权并发送新浪微博 -
ganliang13:
是啊,呵呵
java 利用jdbc连接hive查询示例 -
JustDone:
你是咸宁人?
java 利用jdbc连接hive查询示例 -
Ivy_upup:
不错!!!
学习了,多谢!
Excel下拉列表多选框实现
文章列表
最近在做一些基于mapreduce 操作hbase 表的工作,碰到了几个问题。
一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即hbase提供的HFileOutputFormat类。
它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。
1.reduce 在写的时候由于词排序问题导致程序运行异常。
...
文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。
1. 表的设计
1.1 Pre-Creating Regions
默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。
有关预分区,详情参见:T ...
用Eclipse提交hadoop 程序提交时总是发现有些类不存在,只好用EJob这个类辅助成功。
这个类主要用于把hadoop程序打包,并从本机发到集群
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URL;
import java.net.URLClassLoader;
import java.util.ArrayList;
import java.util. ...
google ip: 203.208.46.147
技术博客:
hadoop,hbase,hive分类:http://www.shangxueba.com/jingyan/753404.htmlhttp://zz563143188.iteye.com/blog/1877266http://www.cnblogs.com/xia520pi/
hadoop hbase 三江小渡 :http://blog.pureisle.net/hadoop_recommend
hadoop hbase 量子道客 :http://blog.linezing.com/
淘宝技术博客:http: ...
Hadoop集群(第7期)_Eclipse开发环境设置
1、Hadoop开发环境简介
1.1 Hadoop集群简介
Java版本:jdk-6u31-linux-i586.bin
Linux系统:CentOS6.0
Hadoop版本:hadoop-1.0.0.tar.gz
1.2 Windows开发简介
Java版本:jdk-6u31-windows-i586.exe
...
package com.bfd.test;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.apache.commons.lang.math.NumberUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apac ...
hadoop mr 输出需要导入hbase的话最好先输出成HFile格式, 再导入到HBase,因为HFile是HBase的内部存储格式, 所以导入效率很高,下面是一个示例 1. 创建HBase表t1
hbase(main):157:0* create 't1','f1'
0 row(s) in 1.3280 seconds
hbase(main):158: ...
package com.bfd.test;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.apache.commons.lang.math.NumberUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apa ...
在使用HBase Put API的时候,有几个会影响性能的因素。
1.Put List Size
HBase的Put支持单条插入,也支持批量插入。
2. AutoFlush
AutoFlush指的是在每次调用HBase的Put操作,是否提交到HBase Server。 默认是true,每次会提交。如果此时是单条插入,就会有更多的IO,从而降低性能
3.Write Buffer Size
Write Buffer Size在AutoFlush为false的时候起作用,默认是2MB,也就是当插入数据超过2MB,就会自动提交到Server
4.WAL
WAL是Writ ...
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 1. 简介 HBase 是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个 ...
Hive SQL使用和数据加载的一点总结
- 博客分类:
- hive
Hive 是facebook开源的一个基于hadoop框架的查询工具,也就是说,需要用hive的话,就要先安装hadoop。这次是小结一下最近用hive的心得,经验分享。hadoop和hive,pig,hbase的安装配置以后专门另开个连载说比较好。
所以,我假设你 ...
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(1 ...
DELETE删除多表数据,怎样才能同时删除多个关联表的数据呢?这里做了深入的解释:
1、 delete from t1 where 条件
2、delete t1 from t1 where 条件
3、 delete t1 from t1,t2 where 条件
4、delete t1,t2 from t1,t2 where 条件
前 3者是可行的,第4者不可行。
也就是简单用delete语句无法进行多表删除数据操作,不过可以建立级联删除,在两个表之间建立级联删除关系,则可以实现删除一个表的数据时,同时删除另一个表中相关的数据。
1、从数据表t1中把那些id值在数据表t2里有匹配的记 ...
#!/bin/bash
date;echo "=========begin"
for ((i=0;i<5;i++));do
{
sleep 3;echo "done"
}&
done
wait
date;echo "=========end"
1.在WEB-INF 下建立文件manifest,写入如下内容:Manifest-Version: 1.0Class-Path: lib/*.jar2.File-> Export->JAR File
3.Next->...进入到JAR Manifest Specification
选择Use existing manifest from workspace
Manifest file 输入:/项目名/manifest
4.点击finish