- 浏览: 346079 次
- 性别:
- 来自: 上海
最新评论
-
tpxcer:
不开启时可以的,而且开启以后各种坑。。。。
hue beeswax权限管理 -
yangze:
博主请教一个问题,hue 控制hive表的权限怎么弄? 怎么联 ...
cloudera新增用户权限配置 -
linux91:
楼主你好,我用CM配置LDAP用户组映射,进入impala时, ...
sentry配置 -
linux91:
版主:按你的步骤配置了,可是,执行 impala-shell ...
impala集成LDAP -
lookqlp:
super_a 写道你好!找不到表这个问题是如何解决的,可以描 ...
hcatalog读取hive数据并写入hive
文章列表
hive同时load数据时,即使是不同分区,也会lock表,
conflicting lock present for ymds_logs@ymds_hadoop mode EXCLUSIVE
http://www.cnblogs.com/ggjucheng/archive/2013/01/16/2862749.html
解决方法:
临时设置
set hive.support.concurrency=false;
机器环境:
4个slave节点
10.200.187.86 cslave1 4核 3G
10.200.187.87 cslave2 2核 4G
10.200.187.88 cslave3 2核 4G
10.200.187.89 cslave4 2核 6G
测试效果:
[img]
[/img]
总结:
1.在内存够用并且是简单sql条件下,impala相比hive执行效率高很多,简单的sql在百万级别数据中运行,耗时几秒甚至不用一秒。
2.impala性能如何,与数据的存储格式关系很大,百万级别text格式与hbase格式相差十几倍,千万级别parquet格式与text格式相差百倍。
3.在当前 ...
整理一下,用的时候照着贴就行了。
1.hive数据导出
将select的结果放到本地文件系统中
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
将select的结果放到hdfs文件系统中
INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM table_name a WHERE a.ds='<DATE>';
2.hive数据导入
LOAD DATA [LOCAL] INPATH ‘/data/userdata’ [ ...
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_sentry.html
条件:
Kerberos安全认证(使用cm配置安全认证后,hive自动也添加了认证,所以hive认证配置http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_hive_security.html可以省略)
该条件是cloud ...
一般我们使用使用client机器访问集群,而不会直接在hadoop节点中使用。
在client机器上,我们可以部署一些应用,或者导数程序。
若使用CDH及CM,那client机器就使用CM进行添加。
与通常增加新节点一样,只是在最后只选择gateway服务即可。
client的段的xml配置,以及kerberos安全配置CM会自动生成。
CDH5.1.0前的版本,可以通过cloudera manager各种配置或者手动修改etc下配置文件来配置,从
CDH5.1.0后貌似clodera manager配置很简单,在界面的‘Administrator’下直接修改配置即可。
若使用CDH版本hadoop,建议使用cm来配置kerberos。
。
。
。
有需求,我就写吧,赖的动。
安装kerberos可以参考:
http://www.cnblogs.com/easycloud/p/3724437.html
http://www.cnblogs.com/easycloud/p/3724361.html
CDH安装有很多方式:
tar包安装,从官网上下载tar包,此种方式类似apache版本hadoop,配置和部署相对来说麻烦。
cloudera manager parcels安装,此种方式最方便、最省事,但如果是国内网的话,期间下载包会非常慢,而且每个节点分别 ...
网上一顿查,各种解决方案都不好使,最后http://askubuntu.com/questions/506294/cant-see-desktop-except-for-background-when-log-in-ubuntu14-04,显卡驱动问题,解决办法:
sudo apt-get remove --purge nvidia-current
sudo apt-get install nvidia-current
hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上,使得HDFS RPC版本是兼容的。
例如:hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar
cdh如下异常:
Caused by: java.io.IOException: Check-sum ...
35227 2014-05-21 13:53:18,504 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Reopen already-open Block for append blk_8901346392456488003_201326
135228 2014-05-21 13:53:18,506 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.33.11:50010, storageID=DS-420686803-1 ...
hive计算时找不到文件
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.MapOperator: DESERIALIZE_ERRORS:0
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 forwarded ...
1.登陆
impala-shell -i cslave1
2.refresh
refresh table_name:当有文件更新时
INVALIDATE METADATA;当有刚创建的表
3.中文code不支持问题
impala-shell -i cslave1
[cslave1:21000] >select count(1) from s_trade where receiver_name = '李丹';
Unknown Exception : 'ascii' codec can't encode characters in position: ordinal not in range ...
hive官方https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView
说
Prior to Hive 0.6.0, lateral view did not support the predicate push-down optimization. In Hive 0.5.0 and earlier, if you used a WHERE clause your query may not have compiled. A workaround was to add set hive.optimize ...
debug时出现如下problem
Cannot connect to VM com.sun.jdi.connect.TransportTimeoutException
解决:
/etc/hosts加入
127.0.0.1 localhost.localdomain localhost
二级索引方案
协处理器的概念、作用和类型不介绍,可以参看:http://www.cnblogs.com/ventlam/archive/2012/10/30/2747024.html,官方blog:https://blogs.apache.org/hbase/entry/coprocessor_introduction
协处理器其中的一个作用是使用Observer创建二级索引。先举个实际例子:
我们要查询指定店铺指定客户购买的订单,首先有一张订单详情表,它以被处理后的订单id作为rowkey;其次有一张以客户nick为rowkey的索引表,结构如下:
rowkey ...