`
superlxw1234
  • 浏览: 554082 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:44776
社区版块
存档分类
最新评论
文章列表
参考:http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/ 附件是我编译和下载好的jar包(hadoop版本:hadoop-0.20.2-cdh3u3),需要的可下载直接使用。   首先,编译MongoDB Adapter 1.下载源码: https://github.com/mongodb/mongo-hadoop   2.修改build.sbt hadoopRelease in ThisBuild := "cdh3"   3.编译: ./sbt package ...
在hive中,想要实现分组内排序,一般都是自己写udf实现oracle中分析函数row_number() over(partition)的功能,如果不使用自定义udf,仅使用标准sql实现的话,毫无性能可言,仅做实验而已。   方便起见,以下语句为oracle中语句,但都属于标准sql,在hive中亦可:   CREATE TABLE lxw_t (user_id VARCHAR2(20), class VARCHAR2(20), score NUMBER );       INSERT INTO liuxiaowen.lxw_t VALUES ('user_1', ...
本文所指的“商品的相关性”,就是依据与某个商品同时出现在购物车中次数最多的商品。   实际应用场景有: 1. 在某一商品的detail页面,推荐给用户与该商品相关的N个商品; 2. 在添加购物车成功页面,当用户把一个商品添加到购物车,推荐给用户N个与之相关的商品; 3. 在货架上将相关性比较高的几个商品摆放在一起; 利用Redis的有序集合做法如下:每种商品构建一个有序集合,集合的成员为和该商品同时出现在购物车中的商品,成员的score为同时出现的次数。 每次P_A和P_B商品同时出现在购物车中时候,分别更新Redis中P_A和P_B对应的有序集合,   zincrby shopca ...
1. 使用repcached     这个不做多的说明。     该方案优点:两个Memcached都可以进行读写操作,互相冗余。缺点:只支持单对单(一个master和一个slave),怎么样在多个memcached中使用repcached,我没找到答案。   2. 使用MAgent    项目地址:http://code.google.com/p/memagent/wiki/HowMagentWorks    安装: mkdir magent cd magent wget http://memagent.googlecode.com/files/magent-0.5.tar.gz ...
刚发现Hbase集群一台RegionServer挂掉了,重启之后仍然不正常,日志中的错误: Caused by: java.io.IOException: Login failure for hbase/hd0159-sw36.dc.sh-wgq.sdo.com@DC.SH-WGQ.SDO.COM from keytab /home/hdfs/hbase-current/conf/hbase.keytab at org.apache.hadoop.security.UserGroupInformation.loginUserFromKeytab(UserGroupInfo ...
转自:http://yuntai.1kapp.com/?p=1035   架构   UI:用户提交查询请求与获得查询结果。包括三个接口:命令行(CLI)、Web GUI(Hue)和客户端。 Driver:接受查询请求与返回查询结果。实现了session的概念,以处理和提供基于JDBC/ODB ...
写MR程序时往往会使用到第三方包, 如果这些包在集群中不存在, 可以通过多种方式提交到集群供 MR 程序使用, 但如果集群中存在的jar与用户MR程序用到的JAR存在版本冲突时该如何解决? 下面是我碰到的问题及解决方式, 简单记录如下, 碰到同样问题的同学可以参考下: 昨天使用 commons-net-3.2.jar 包连接FTP采集日志, 调用方法片段:   FTPClient ftpClient = new FTPClient(); ftpClient.setConnectTimeout(1000);   // 这个方法在commons-net-3.2.jar包中有, 而在 ...
select a.sdid,b.cookie_id from lxw_t2 a left outer join lxw_t1 b on (a.sdid = b.cookie_id and a.pt = '2012-11-22');   如果把主表a的过滤条件写在on后面,则会先关联,在关联之后的结果上再过滤。   select a.cookie_id,b.sdid from lxw_t1 a left outer join lxw_t2 b on (a.cookie_id = b.sdid and b.pt = '2012-11-22');   但如果是从表的 ...
需要到几百台机器上去删除一些目录,每台机器上的目录名固定,共有12个, 有一台机器(A)可以免密码ssh到这几百台机器上, 刚开始使用如下命令:   ssh remoteHost -t 'nohup sudo rm -rf /opt/data01/mapred/local/toBeDeleted/ &'   发现远程机器上的命令执行不起来,ssh 到远程机器上,使用nohup + & 不可行。   后来的解决办法:   编写脚本,del.sh   #!/bin/bash arr="/opt/data01/mapred/local/ /opt ...
#!/usr/bin/perl -w use strict; use Data::Dumper; use POSIX; use Getopt::Long; use threads ('exit' => 'threads_only'); use List::Util 'shuffle'; use Thread::Semaphore; use threads::shared; use File::Basename; ##设置并行线程数 my $semaphore_cnt = Thread::Semaphore->new(100); my @hosts ...
需求: 从字符串"979|7.10.80|8684"中提取最后一个竖线|后面的内容, 但是在这个字符串中,竖线的个数不是固定的 。   使用hive中的regexp_extract函数实现如下: select regexp_extract('979|7.10.80|8684','.*\\|(.*)',1) from t1 limit 1; OK 8864   由于正则表达式的贪婪匹配,一直会匹配到最后一个竖线。 如果要取第一个竖线前面的内容,实现如下: select regexp_extract('979|7.10.80|8684','( ...
hadoop-0.20.2-cdh3u3目录为:E:\hadoop-0.20.2-cdh3u3\lib   复制E:\hadoop-0.20.2-cdh3u3\src\contrib\build-contrib.xml 到 E:\hadoop-0.20.2-cdh3u3\src\contrib\eclipse-plugin   修改E:\hadoop-0.20.2-cdh3u3\src\contrib\eclipse-plugin\build-contrib.xml   找到<property name="hadoop.root" location=&qu ...
2012-12-17 10:58:59,925 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid volume failure config value: 3 at org.apache.hadoop.hdfs.server.datanode.FSDataset.<init>(FSDataset.java:1025) at org.apache.hadoop.h ...
hadoop fs -cat /tmp/liuxiaowen/1.txt   000377201207221125^^APPLE IPHONE 4S^^2 132288201210331629^^THINKING IN JAVA^^1 132288201210331629^^THIN ssss^^1111 132288201210331629^^THdd dd ddJAVA^^10   文本文件以两个尖角符作为列分隔符   hive中建表:   create external table tt(times string, product_name string, sal ...
中间Lzo,最终Gzip   set mapred.output.compress = true; set mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type = BLOCK; set mapred.compress.map.output = true; set mapred.map.output.compression.codec = org.apache.hadoop.io.compress.LzoCodec ...
Global site tag (gtag.js) - Google Analytics