hbase 双网卡多网卡

博客分类：

hbase

官方issue未解决，不支持多网卡 https://issues.apache.org/jira/browse/HBASE-2502?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel 但参看hbase可以regionserver、zookeeper可以指定网卡： http://search-hadoop.com/m/la35qci6P21/hbase+dns&subj=hbase+host+dns+ip+and+route+for+multi+network+interface+card hba ...

2012-12-06 14:09
浏览 1676
评论(0)
分类:编程语言

hive结合hbase数据处理解决方案测评二（优化篇）

博客分类：

hive
hbase

hbase hive

接上一篇，对hbase参数进行优化，主要是调整与查询效率相关的参数 count select count(1) from hbase_table; 部分字段切表 insert overwrite table hive_table select a,b,c,d from hbase_table; 全字段切表 insert into table test_table partition(part='aa') select * from hbase_table; hive至hive切表 create table test_table2 like test_table; insert into tab ...

2012-12-06 09:41
浏览 6572
评论(0)
分类:开源软件

python hbase

博客分类：

python
hbase

python hbase

需求将文本数据导入至hbase中。安装thrift 下载http://thrift.apache.org/download/，并解压我使用ubuntu系统，参考http://thrift.apache.org/docs/install/，执行sudo apt-get install libboost-dev libboost-test-dev libboost-program-options-dev libevent-dev automake libtool flex bison pkg-config g++ libssl-dev root账户下，先后执行./configure、mak ...

2012-12-04 17:20
浏览 2203
评论(0)
分类:开源软件

hive结合hbase数据处理解决方案测评

博客分类：

hive
hbase

hbase hive 结合效率为什么

前言我们考虑为什么要将hive与hbase结合，出于hbase有唯一主键的缘故可以将其作为存储，顺手能帮我们完成海量数据“去重”的etl处理，而hive能作为我们统计计算。两者结合简直就是双剑合臂～～，但效果怎么样呢？目的基于多种hiveSQL去重方式失败后，考虑过使用mysql做近期数据去重的方式，然而不能满足全量去重的业务需求，所以考虑使用hbase的唯一主键来达到全量“去重”的效果。测试环境 hadoop-1.0.3 hive-0.9.0 hbase-0.94.2 zookeeper-3.3.5 1namenode，5datanode sqoop 测试指标 1.mysql-> ...

2012-12-03 17:19
浏览 5174
评论(0)
分类:开源软件

java.lang.ClassNotFoundException: org.apache.hadoop.hive.hbase.HBaseSplit

博客分类：

hive
hbase

hbase hive zookeeper

hive关联hbase表，使用select count(*) from tablename报如下异常： java.io.IOException: Cannot create an instance of InputSplit class = org.apache.hadoop.hive.hbase.HBaseSplit:org.apache.hadoop.hive.hbase.HBaseSplit at org.apache.hadoop.hive.ql.io.HiveInputFormat$HiveInputSplit.readField ...

2012-12-03 11:19
浏览 5045
评论(0)
分类:开源软件

hive rank 测试

博客分类：

hive

hive rank

前言最近在做数据的去重，想到一种类似于关系型数据库rank函数的方式，即获取topN（N=1）的方式，sql步骤如下： 1.数据分组，组内排序 2.对分组数据进行标记rank 3.获取rank<N的数据 hive udf hive中没有这种函数，需要自己编写udf函数，代码如下： public final class TradeUDF extends UDF { private int counter; private String last_dp_id; private String last_tid; //多参数 public int evaluate(Str ...

2012-11-30 11:18
浏览 3483
评论(0)
分类:开源软件

sqoop hbase导入并与hive结合

博客分类：

hive
sqoop
hbase

sqoop hive hbase

sqoop语句以tid为主键，info为列族 sqoop import --connect jdbc:mysql://ip/taobao_db --username hive --password 123456 --table mysql_table_name --hbase-table hbase_table_name --column-family info --split-by tid hbae创建表语句 create 'trade','info' hive创建表语句 CREATE EXTERNAL TABLE hbase_trade( tid string, dp_id s ...

2012-11-29 17:23
浏览 5392
评论(0)
分类:开源软件

hbase 与 hive 结合

博客分类：

hbase
hive

hbase hive

前置条件 hadoop hive hbase环境搭建完成。搭建版本 hadoop-1.0.3 hive-0.9.0 hbase-0.94.2 zookeeper-3.3.5 步骤配置hive xml，配置hbase与hive结合包 <property> <name>hive.aux.jars.path</name> <value>file:///usr/local/hive-0.9.0/lib/hive-hbase-handler-0.9.0.jar,file:///usr/local/hive-0.9.0/lib/hbase-0.94 ...

2012-11-29 16:15
浏览 7476
评论(0)
分类:开源软件

Number of dynamic partitions RemoteException LeaseExpiredException

博客分类：

hive

hive LeaseExpiredException RemoteException dynamic partitions

hive做大数据处理时，遇到如下异常： [Fatal Error] Operator FS_2 (id=2): Number of dynamic partitions exceeded hive.exec.max.dynamic.partitions.pernode. ...... org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No ...

2012-11-29 09:41
浏览 2524
评论(0)
分类:开源软件

hbase搭建

博客分类：

hbase

hbase 搭建

前置条件 hadoop环境运行正常。步骤下载hbase压缩包hbase-0.94.2.tar.gz，并解压tar -zxvf *.gz 配置hbase-site.xml <property> <name>hbase.rootdir</name> <value>hdfs://master:8020/hbase</value> <description>The directory shared by region servers and into which HBase persists. The URL ...

2012-11-27 11:43
浏览 3093
评论(0)
分类:开源软件

python判断今天是否是本月的第一天

博客分类：

python

python 第一天

from datetime import datetime as dtime import datetime def firstDayOfMonth(dt): return (dt + datetime.timedelta(days= -dt.day + 1)).replace(hour=0, minute=0, second=0, microsecond=0) print firstDayOfMonth(dtime.today()).day == dtime.today().day

2012-11-21 09:07
浏览 2292
评论(0)
分类:编程语言

hive SQL调用python脚本遇到的几个问题

博客分类：

hive

hive python

sql调用python获取数据字段个数太多源码： for line in sys.stdin: (tid, dp_id, customerno,...此处省略多个字段，共n个字段) = line.strip().split() 异常：图1 原因：根据测试，split分割数据以后获取n+m个数值，与预期的n个数值不对应，split默认以空格分割数据，而hive录入数据默认以制表符“\t”分割。解决： for line in sys.stdin: (tid, dp_id, customerno,...此处省略多个字段 ...

2012-11-21 09:07
浏览 5242
评论(0)
分类:编程语言

ganglia监控hadoop各指标说明

博客分类：

hadoop

ganglia hadoop

做个mark！监控指标大致如下： default.shuffleInput dfs.datanode jvm mapred.shuffleOutput rpc metricssystem dfs.datanode.blockChecksumOp_avg_time 块校验平均时间 dfs.datanode.blockChecksumOp_num_ops 块检验次数 dfs.datanode.blockReports_avg_time 块报告平均时间 dfs.datanode.blockReports_num_ops 块报告次数 dfs.datanode.block_veri ...

2012-11-20 14:04
浏览 1626
评论(0)
分类:开源软件

搭建hive的eclispe调试环境（ubuntu）

博客分类：

hive

hive eclipse

svn check out hive 工程图1 将相关java build path，保证能编译通过，没有红色xx build.xml--》run as--》Ant build，successful后，将build/目录下所有jar包拷贝至lib/文件夹下。若ant没有安装或者不想通过ant编译，可以在apache上下载已经编译好的hive工程，将所有jar包拷贝至lib下，注意，hadoop jar与集群hadoop版本一致。将lib/*.jar build path。选择org.apache.hadoop.hive.cli.CliDriver，右键Debug As--》Debug C ...

2012-11-20 14:02
浏览 1492
评论(0)
分类:编程语言

搭建sqoop的eclipse调试环境

博客分类：

sqoop

sqoop eclipse

a、导入到sqoop到eclipse中：下载sqoop 1.3的tar包解压，我们打开build.xml,发现<target name="eclipse" description="Generate Eclipse project">的target，我们只需要执行，ant eclipse，就可以ant脚本就可以给我们生成eclipse的工程文件，我们只需要在eclipse中导入即可。 b、调试sqoop：由于sqoop bin文件夹中的脚本，sqoop来启动java进程，java进程是sqoop脚本的子进程，sqoop脚本中配置了的许多环境变 ...

2012-11-20 13:56
浏览 1477
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase 双网卡多网卡

hive结合hbase数据处理解决方案测评二（优化篇）

python hbase

hive结合hbase数据处理解决方案测评

java.lang.ClassNotFoundException: org.apache.hadoop.hive.hbase.HBaseSplit

hive rank 测试

sqoop hbase导入并与hive结合

hbase 与 hive 结合

Number of dynamic partitions RemoteException LeaseExpiredException

hbase搭建

python判断今天是否是本月的第一天

hive SQL调用python脚本遇到的几个问题

ganglia监控hadoop各指标说明

搭建hive的eclispe调试环境（ubuntu）

搭建sqoop的eclipse调试环境

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>