- 浏览: 348350 次
- 性别:
- 来自: 杭州
最新评论
-
lvyuan1234:
你好,你那个sample.txt文件可以分享给我吗
hive insert overwrite into -
107x:
不错,谢谢!
hive 表的一些默认值 -
on_way_:
赞
Hadoop相关书籍 -
bupt04406:
dengkanghua 写道出来这个问题该怎么解决?hbase ...
Unexpected state导致HMaster abort -
dengkanghua:
出来这个问题该怎么解决?hbase master启动不起来。
Unexpected state导致HMaster abort
文章列表
从cdh3集群 distcp 数据到 cdh4集群上面详见: http://cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_7_2.html 注意: (1)要启个mapreduce集群,在cdh4上启动mr (2)hadoop distcp hftp://cdh3-namenode:50070/
hbase add table
- 博客分类:
- hbase
把table数据从一个集群移动到另外一个集群
(1)把table的目录拷贝过来,放到hbase的root目录下(2)table的region信息写到meta表里面bin/hbase org.jruby.Main bin/add_table.rb /hbase94/t1(3)disable table(4)enable table
hbase shell
- 博客分类:
- hbase
hbase shell 命令
mvn clean; mvn package -DskipTests=true -Dhadoop.profile=2.0
https://code.google.com/p/powermock/issues/detail?id=504
There is a work-around for this issue: run the junit tests with a '-noverify' jvm argument
scan 'MEMBER_INFO', {STARTROW => '\\x00\\ ...
hive rename table name
- 博客分类:
- Hive
hive rename tablename
hive rename的时候,如果table不是外部表,那么table的location会进行修改。
如果table是外部表,那么location不变。
HiveAlterHandler
// if this alter is a rename, and user didn't change the
// default location (or new location is empty), and table is
// n ...
cdh4在处理pipeline中的错误时,逻辑上与原先不一样。
cdh3在处理pipeline的错误时,假设当前pipeline有3个datanode,如果一个有问题,那么通过移除掉坏的datanode,重新建立只有2个datanode的pipeline,然后接着往这两个节点的pipeline写,直到结束。
cdh4默认处理时不一样,如果当前pipeline有3个datanode,有一个出了问题,那么把这个从pipeline中移除,然后向namenode在申请一个新的datanode,从其中一个好的datanode上面的块数据拷贝到这个新的datanode,然后建立一个新的3个dat ...
有用户问:hive的distribute by分桶是怎么分的。如果distribute by sellerId , reduce个数设的20,那是按照sellerId mod 20来分桶吗?sellerId 是bigint类型。
原先我也以为是这样子的,但是用户提出了疑问:很奇怪,跑出来的结果,有一小部分数据不对。这是sellerId,按照 mod的话,应该在第8分文件,但是却在第0份文件中
public static int hashCode(Object o, ObjectInspector objIns) {
if (o == null) {
...
hdfs 升级,cdh3 升级 cdh4
- 博客分类:
- hadoop
Step 1: 做下saveNamespace操作,停掉集群,并备份下 HDFS 的 Metadata
1.1 让namenode进入safe mode状态 $ bin/hadoop dfsadmin -safemode enter 1.2 执行saveNamespace操作
$ bin/hadoop dfsadmin -saveNamespace
1.3 stop 集群
1.4 备份 dfs.name.dir 下面的元数据
Step 2: 下载 CDH4,把CDH3的配置拷过来
注意CDH3配置文件是在conf目录下面,CDH4的配置文件目录已经改成了e ...
hbase snapshot
- 博客分类:
- hbase
Snapshot: (1) take a snapshot table是在enable状态,那么使用EnabledTableSnapshotHandler table是在disable状态,使用DisabledTableSnapshotHandler,在HMaster端完成所有操作 (2) getCompletedSnapshots 获得已完成的snapshot,正在进行中的被忽略 (3) deleteSnapshot 直接删除snapshot对应的目录 (4) isSnapshotDone 查看snapshot是否完成,从snapshotHandlers队列中获得信息 (5) ...
2013-06-06 14:58:43,131 INFO org.apache.hadoop.hbase.regionserver.SplitTransaction: Starting split of region TestTable,8WXEKLMO72,1370431726449.974515d502b3876142181e57e3d4a74e.2013-06-06 14:58:43,131 DEBUG org.apache.hadoop.hbase.regionserver.SplitTransaction: regionserver:60020-0x13f13f3aa5b002 ...
like vs rlike vs regexp
rlike == regexp,底层实现一样,使用正则 like 有一些优化,对于查询类型分为五种类型:
NONE, // "abc"
BEGIN, // "abc%"
END, // "%abc"
MIDDLE, // "%abc%"
COMPLEX, // all other cases, such as "ab%c_de"
NONE、BEGIN和END三种使用字符串查找,不使用正则,COMPLEX使用正则,MIDDL ...
HBase maxIdleTime
- 博客分类:
- hbase
HBaseClient端会建立跟HRegionServer或者HMaster的tcp连接,而这个连接在一定时间内没有请求的话,那么这个连接就会被关闭。如果应用请求比较少,加上跨机房的话,tcp连接的建立会比较耗时,导致请求rt稍高,这个时候可以调整tcp连接的存活时间,参数是client端的
this.maxIdleTime = conf.getInt("hbase.ipc.client.connection.maxidletime", 10000);
//10s
具体逻辑在HBaseClient 的Connection.waitForWork里面
H ...
HBase Create Table
- 博客分类:
- hbase
基于HBase trunk代码http://svn.apache.org/repos/asf/hbase/trunk,Revision: 1431176
Create table 的过程,Create table时 只有一个region 的assign 过程。 图示
Client ...
(1)每个regionserver多个HLog,提升写。 社区还没有
https://issues.apache.org/jira/browse/HBASE-5699
https://issues.apache.org/jira/browse/HBASE-6981
http://svn.apache.org/viewvc?view=revision&revision=1412373
(2)多线程flush memstore,提升写,社区还没有
https://issues.apache.org/jira/browse/HBASE-6980
https://issu ...
Client端只有一个put请求,往server端写数据,server端处理时间过长,导致client端SocketTimeoutException
0.94版本
Client端发生异常SocketTimeoutException:
12/11/20 19:03:18 WARN client.HConnectionManager$HConnectionImplementation: Failed all from region=myLittleHBaseTable,,1353401128907.2879da4a2d609943473a2421520732cb., host ...
RPC HBaseServer
- 博客分类:
- hbase
HBaseServer:
一个请求发送的数据是:数据的长度(int类型,不包括本身) + call id(int类型) + call的内容
(1)Listener 监听连接请求,来了新的Connection,按照round robin方式选择一个Reader,由这个Reader来读取解析这个Connection上面的call。
Reader 数量由ipc.server.read.threadpool.size来配置(默认10)。
Reader 发现某个Connection上面可读,就读取该连接上面的数据,一个一个call的数据读取出来。 ...