MapReduce读取HDFS,将结果写入MongoDB

博客分类：

hadoop
NoSQL

参考：http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/ 附件是我编译和下载好的jar包(hadoop版本：hadoop-0.20.2-cdh3u3)，需要的可下载直接使用。首先，编译MongoDB Adapter 1.下载源码: https://github.com/mongodb/mongo-hadoop 2.修改build.sbt hadoopRelease in ThisBuild := "cdh3" 3.编译： ./sbt package ...

2013-05-29 11:07
浏览 5165
评论(0)
分类:编程语言

hive中使用标准sql实现分组内排序

博客分类：

hive

hive 序列 row_number

在hive中，想要实现分组内排序，一般都是自己写udf实现oracle中分析函数row_number() over(partition)的功能，如果不使用自定义udf,仅使用标准sql实现的话，毫无性能可言，仅做实验而已。方便起见，以下语句为oracle中语句，但都属于标准sql,在hive中亦可： CREATE TABLE lxw_t (user_id VARCHAR2(20), class VARCHAR2(20), score NUMBER ); INSERT INTO liuxiaowen.lxw_t VALUES ('user_1', ...

2013-05-15 10:22
浏览 4455
评论(0)
分类:数据库

利用Redis的有序集合做购物车商品相关性分析

博客分类：

NoSQL

redis 购物车推荐

本文所指的“商品的相关性”，就是依据与某个商品同时出现在购物车中次数最多的商品。实际应用场景有： 1. 在某一商品的detail页面，推荐给用户与该商品相关的N个商品； 2. 在添加购物车成功页面，当用户把一个商品添加到购物车，推荐给用户N个与之相关的商品； 3. 在货架上将相关性比较高的几个商品摆放在一起；利用Redis的有序集合做法如下：每种商品构建一个有序集合，集合的成员为和该商品同时出现在购物车中的商品，成员的score为同时出现的次数。每次P_A和P_B商品同时出现在购物车中时候，分别更新Redis中P_A和P_B对应的有序集合， zincrby shopca ...

2013-05-14 14:05
浏览 2743
评论(1)
分类:数据库

关于memcached的HA方案探究2

博客分类：

NoSQL

nosql memcached magent

1. 使用repcached 这个不做多的说明。该方案优点：两个Memcached都可以进行读写操作，互相冗余。缺点：只支持单对单（一个master和一个slave），怎么样在多个memcached中使用repcached，我没找到答案。 2. 使用MAgent 项目地址：http://code.google.com/p/memagent/wiki/HowMagentWorks 安装： mkdir magent cd magent wget http://memagent.googlecode.com/files/magent-0.5.tar.gz ...

2013-04-23 16:18
浏览 1806
评论(1)
分类:数据库

Kerboers认证由于和Master时间不同步导致的错误

博客分类：

hadoop

hbase 时间偏差 kerboers

刚发现Hbase集群一台RegionServer挂掉了，重启之后仍然不正常，日志中的错误： Caused by: java.io.IOException: Login failure for hbase/hd0159-sw36.dc.sh-wgq.sdo.com@DC.SH-WGQ.SDO.COM from keytab /home/hdfs/hbase-current/conf/hbase.keytab at org.apache.hadoop.security.UserGroupInformation.loginUserFromKeytab(UserGroupInfo ...

2013-04-03 15:56
浏览 4039
评论(0)
分类:互联网

Hive的原理与不足

博客分类：

hive

hive原理

转自：http://yuntai.1kapp.com/?p=1035 架构 UI：用户提交查询请求与获得查询结果。包括三个接口：命令行（CLI）、Web GUI（Hue）和客户端。 Driver：接受查询请求与返回查询结果。实现了session的概念，以处理和提供基于JDBC/ODB ...

2013-03-06 16:06
浏览 2579
评论(1)
分类:互联网

hadoop mapreduce程序jar包版本冲突解决方法

博客分类：

hadoop

hadoop jar包冲突 classpath加载顺序

写MR程序时往往会使用到第三方包，如果这些包在集群中不存在，可以通过多种方式提交到集群供 MR 程序使用，但如果集群中存在的jar与用户MR程序用到的JAR存在版本冲突时该如何解决？下面是我碰到的问题及解决方式，简单记录如下，碰到同样问题的同学可以参考下: 昨天使用 commons-net-3.2.jar 包连接FTP采集日志，调用方法片段: FTPClient ftpClient = new FTPClient(); ftpClient.setConnectTimeout(1000); // 这个方法在commons-net-3.2.jar包中有，而在 ...

2013-01-08 16:34
浏览 3480
评论(0)
分类:编程语言

hive左外关联(left outer join)中主从表的过滤条件

博客分类：

hive

hive left outer join

select a.sdid,b.cookie_id from lxw_t2 a left outer join lxw_t1 b on (a.sdid = b.cookie_id and a.pt = '2012-11-22'); 如果把主表a的过滤条件写在on后面，则会先关联，在关联之后的结果上再过滤。 select a.cookie_id,b.sdid from lxw_t1 a left outer join lxw_t2 b on (a.cookie_id = b.sdid and b.pt = '2012-11-22'); 但如果是从表的 ...

2012-12-25 11:12
浏览 7969
评论(0)
分类:编程语言

通过ssh在远程机器后台sudo执行脚本

博客分类：

linux&shell

ssh nohup

需要到几百台机器上去删除一些目录，每台机器上的目录名固定，共有12个，有一台机器（A）可以免密码ssh到这几百台机器上，刚开始使用如下命令： ssh remoteHost -t 'nohup sudo rm -rf /opt/data01/mapred/local/toBeDeleted/ &' 发现远程机器上的命令执行不起来，ssh 到远程机器上，使用nohup + & 不可行。后来的解决办法：编写脚本，del.sh #!/bin/bash arr="/opt/data01/mapred/local/ /opt ...

2012-12-25 09:44
浏览 5381
评论(3)
分类:编程语言

perl的多线程脚本示例

博客分类：

perl

perl 多线程

#!/usr/bin/perl -w use strict; use Data::Dumper; use POSIX; use Getopt::Long; use threads ('exit' => 'threads_only'); use List::Util 'shuffle'; use Thread::Semaphore; use threads::shared; use File::Basename; ##设置并行线程数 my $semaphore_cnt = Thread::Semaphore->new(100); my @hosts ...

2012-12-25 09:41
浏览 1792
评论(0)
分类:编程语言

hive中巧用正则表达式的贪婪匹配

博客分类：

hive

hive extract

需求：从字符串"979|7.10.80|8684"中提取最后一个竖线|后面的内容，但是在这个字符串中，竖线的个数不是固定的。使用hive中的regexp_extract函数实现如下： select regexp_extract('979|7.10.80|8684','.*\\|(.*)',1) from t1 limit 1; OK 8864 由于正则表达式的贪婪匹配，一直会匹配到最后一个竖线。如果要取第一个竖线前面的内容，实现如下： select regexp_extract('979|7.10.80|8684','( ...

2012-12-20 17:19
浏览 11952
评论(0)
分类:编程语言

windows上编译eclipse-plugin for hadoop-0.20.2-cdh3u3

博客分类：

hadoop

hadoop eclipse-plugin

hadoop-0.20.2-cdh3u3目录为：E:\hadoop-0.20.2-cdh3u3\lib 复制E:\hadoop-0.20.2-cdh3u3\src\contrib\build-contrib.xml 到 E:\hadoop-0.20.2-cdh3u3\src\contrib\eclipse-plugin 修改E:\hadoop-0.20.2-cdh3u3\src\contrib\eclipse-plugin\build-contrib.xml 找到<property name="hadoop.root" location=&qu ...

2012-12-17 17:24
浏览 2631
评论(0)
分类:编程语言

hadoop-error:DiskChecker$DiskErrorException: Invalid volume failure config value

博客分类：

hadoop

hadoop

2012-12-17 10:58:59,925 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid volume failure config value: 3 at org.apache.hadoop.hdfs.server.datanode.FSDataset.<init>(FSDataset.java:1025) at org.apache.hadoop.h ...

2012-12-17 13:33
浏览 3917
评论(0)
分类:编程语言

hive创建表指定分隔符，不支持多个字符作为分隔符

博客分类：

hive

hive 分隔符

hadoop fs -cat /tmp/liuxiaowen/1.txt 000377201207221125^^APPLE IPHONE 4S^^2 132288201210331629^^THINKING IN JAVA^^1 132288201210331629^^THIN ssss^^1111 132288201210331629^^THdd dd ddJAVA^^10 文本文件以两个尖角符作为列分隔符 hive中建表： create external table tt(times string, product_name string, sal ...

2012-12-10 14:43
浏览 24172
评论(1)
分类:编程语言

记录一下Hive中间和最终结果压缩

博客分类：

hive

hive 压缩

中间Lzo,最终Gzip set mapred.output.compress = true; set mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type = BLOCK; set mapred.compress.map.output = true; set mapred.map.output.compression.codec = org.apache.hadoop.io.compress.LzoCodec ...

2012-12-04 19:24
浏览 6720
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

MapReduce读取HDFS,将结果写入MongoDB

hive中使用标准sql实现分组内排序

利用Redis的有序集合做购物车商品相关性分析

关于memcached的HA方案探究2

Kerboers认证由于和Master时间不同步导致的错误

Hive的原理与不足

hadoop mapreduce程序jar包版本冲突解决方法

hive左外关联(left outer join)中主从表的过滤条件

通过ssh在远程机器后台sudo执行脚本

perl的多线程脚本示例

hive中巧用正则表达式的贪婪匹配

windows上编译eclipse-plugin for hadoop-0.20.2-cdh3u3

hadoop-error:DiskChecker$DiskErrorException: Invalid volume failure config value

hive创建表指定分隔符，不支持多个字符作为分隔符

记录一下Hive中间和最终结果压缩

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>