- 浏览: 554082 次
- 性别:
- 来自: 西安
-
博客专栏
-
-
Hive入门
浏览量:44776
最新评论
-
freeluotao:
public void readFields(D ...
MapReduce直接连接Mysql获取数据 -
passionke:
在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据 -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十六-Hive的WEB页面接口-HWI -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
文章列表
参考:http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/
附件是我编译和下载好的jar包(hadoop版本:hadoop-0.20.2-cdh3u3),需要的可下载直接使用。
首先,编译MongoDB Adapter
1.下载源码:
https://github.com/mongodb/mongo-hadoop
2.修改build.sbt
hadoopRelease in ThisBuild := "cdh3"
3.编译:
./sbt package ...
在hive中,想要实现分组内排序,一般都是自己写udf实现oracle中分析函数row_number() over(partition)的功能,如果不使用自定义udf,仅使用标准sql实现的话,毫无性能可言,仅做实验而已。
方便起见,以下语句为oracle中语句,但都属于标准sql,在hive中亦可:
CREATE TABLE lxw_t (user_id VARCHAR2(20),
class VARCHAR2(20),
score NUMBER
);
INSERT INTO liuxiaowen.lxw_t VALUES ('user_1', ...
本文所指的“商品的相关性”,就是依据与某个商品同时出现在购物车中次数最多的商品。
实际应用场景有: 1. 在某一商品的detail页面,推荐给用户与该商品相关的N个商品; 2. 在添加购物车成功页面,当用户把一个商品添加到购物车,推荐给用户N个与之相关的商品; 3. 在货架上将相关性比较高的几个商品摆放在一起; 利用Redis的有序集合做法如下:每种商品构建一个有序集合,集合的成员为和该商品同时出现在购物车中的商品,成员的score为同时出现的次数。
每次P_A和P_B商品同时出现在购物车中时候,分别更新Redis中P_A和P_B对应的有序集合,
zincrby shopca ...
1. 使用repcached 这个不做多的说明。 该方案优点:两个Memcached都可以进行读写操作,互相冗余。缺点:只支持单对单(一个master和一个slave),怎么样在多个memcached中使用repcached,我没找到答案。
2. 使用MAgent 项目地址:http://code.google.com/p/memagent/wiki/HowMagentWorks 安装:
mkdir magent
cd magent
wget http://memagent.googlecode.com/files/magent-0.5.tar.gz ...
刚发现Hbase集群一台RegionServer挂掉了,重启之后仍然不正常,日志中的错误:
Caused by: java.io.IOException: Login failure for hbase/hd0159-sw36.dc.sh-wgq.sdo.com@DC.SH-WGQ.SDO.COM from keytab /home/hdfs/hbase-current/conf/hbase.keytab
at org.apache.hadoop.security.UserGroupInformation.loginUserFromKeytab(UserGroupInfo ...
转自:http://yuntai.1kapp.com/?p=1035
架构
UI:用户提交查询请求与获得查询结果。包括三个接口:命令行(CLI)、Web GUI(Hue)和客户端。
Driver:接受查询请求与返回查询结果。实现了session的概念,以处理和提供基于JDBC/ODB ...
写MR程序时往往会使用到第三方包, 如果这些包在集群中不存在, 可以通过多种方式提交到集群供 MR 程序使用, 但如果集群中存在的jar与用户MR程序用到的JAR存在版本冲突时该如何解决?
下面是我碰到的问题及解决方式, 简单记录如下, 碰到同样问题的同学可以参考下:
昨天使用 commons-net-3.2.jar 包连接FTP采集日志,
调用方法片段:
FTPClient ftpClient = new FTPClient();
ftpClient.setConnectTimeout(1000);
// 这个方法在commons-net-3.2.jar包中有, 而在 ...
select a.sdid,b.cookie_id
from lxw_t2 a
left outer join lxw_t1 b
on (a.sdid = b.cookie_id and a.pt = '2012-11-22');
如果把主表a的过滤条件写在on后面,则会先关联,在关联之后的结果上再过滤。
select a.cookie_id,b.sdid
from lxw_t1 a
left outer join lxw_t2 b
on (a.cookie_id = b.sdid and b.pt = '2012-11-22');
但如果是从表的 ...
需要到几百台机器上去删除一些目录,每台机器上的目录名固定,共有12个,
有一台机器(A)可以免密码ssh到这几百台机器上,
刚开始使用如下命令:
ssh remoteHost -t 'nohup sudo rm -rf /opt/data01/mapred/local/toBeDeleted/ &'
发现远程机器上的命令执行不起来,ssh 到远程机器上,使用nohup + & 不可行。
后来的解决办法:
编写脚本,del.sh
#!/bin/bash
arr="/opt/data01/mapred/local/ /opt ...
#!/usr/bin/perl -w
use strict;
use Data::Dumper;
use POSIX;
use Getopt::Long;
use threads ('exit' => 'threads_only');
use List::Util 'shuffle';
use Thread::Semaphore;
use threads::shared;
use File::Basename;
##设置并行线程数
my $semaphore_cnt = Thread::Semaphore->new(100);
my @hosts ...
需求:
从字符串"979|7.10.80|8684"中提取最后一个竖线|后面的内容,
但是在这个字符串中,竖线的个数不是固定的
。
使用hive中的regexp_extract函数实现如下:
select regexp_extract('979|7.10.80|8684','.*\\|(.*)',1) from t1 limit 1;
OK
8864
由于正则表达式的贪婪匹配,一直会匹配到最后一个竖线。
如果要取第一个竖线前面的内容,实现如下:
select regexp_extract('979|7.10.80|8684','( ...
hadoop-0.20.2-cdh3u3目录为:E:\hadoop-0.20.2-cdh3u3\lib
复制E:\hadoop-0.20.2-cdh3u3\src\contrib\build-contrib.xml 到
E:\hadoop-0.20.2-cdh3u3\src\contrib\eclipse-plugin
修改E:\hadoop-0.20.2-cdh3u3\src\contrib\eclipse-plugin\build-contrib.xml
找到<property name="hadoop.root" location=&qu ...
2012-12-17 10:58:59,925 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid
volume failure config value: 3
at org.apache.hadoop.hdfs.server.datanode.FSDataset.<init>(FSDataset.java:1025)
at org.apache.hadoop.h ...
hadoop fs -cat /tmp/liuxiaowen/1.txt
000377201207221125^^APPLE IPHONE 4S^^2
132288201210331629^^THINKING IN JAVA^^1
132288201210331629^^THIN ssss^^1111
132288201210331629^^THdd dd ddJAVA^^10
文本文件以两个尖角符作为列分隔符
hive中建表:
create external table tt(times string,
product_name string,
sal ...
中间Lzo,最终Gzip
set mapred.output.compress = true;
set mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type = BLOCK;
set mapred.compress.map.output = true;
set mapred.map.output.compression.codec = org.apache.hadoop.io.compress.LzoCodec ...