本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- lzyfn123
- zhanjia
- johnsmith9th
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- jveqi
- java-007
- sunj
最新文章列表
linux pig 安裝使用
0.准备工作 hadoop 服务器
10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master
10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2
10.156.50.37 yanfabu2-37.base.app.dev.yf zk3 ...
Pig script failed to parse: NoViableAltException(84@[])
出现以下错误的主要原因就是filter 语句的逻辑有问题,可以看看by关键词后面的部分。
ERROR 1200: Pig script failed to parse: NoViableAltException(84@[])
org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1000: Error during parsi ...
关于pig是否可以匹配中文字符
我在一个叫http://www.codelast.com/%E5%8E%9F%E5%88%9Bpig%E4%B8%AD%E7%9A%84%E4%B8%80%E4%BA%9B%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5%E6%80%BB%E7%BB%93/编码无悔的博客中发现了一个有趣的问题,也解决了我之前关于在Pig中,中文是否可以匹配的问题。答案是可以的,但要将代码打包 ...
pig的函数
判断某个网站的前缀,并给其打上特定的标签值: 一个java代码例子如下:
Java代码
public String getTag(){
//url文本
String url="http://www.baidu.com.cn";
//标签值
String tags=null;
if( ...
pig的入门
在这里贴一个pig源码的分析,做pig很长时间没做笔记,不包含任何细节,以后有机会再说吧
http://blackproof.iteye.com/blog/1769219
hadoop pig入门总结
pig简介
pig数据类型
pig latin语法
pig udf自定义
pig derived衍生
推荐书籍 programming pig
推荐网站 http://p ...
Hive集成Tez让大象飞起来
基础环境
Apache Hadoop2.7.1
Centos6.5
Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1
Apache Tez0.7.0
Apache Pig0.15.0
Apache oozie4.2.0
Apache Spark1.6.0
Cloudrea Hue3.8.1
安装Tez,请参考上篇 ...
Apache Tez0.7编译笔记
目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧
下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-src.tar.gz
由于编译Tez-UI模块,需要使用nodejs,所以建议还是
提前安装nodejs 和npm工具,安装方式,可以下载源码安装
也可以yum安装,安装步骤:
...
Pig0.12.0和Solr4.10.2一些问题
遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据? 注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 。 第二: 在Pig处理split,或则正则截取数据的时候。 先稍微说下,为啥使用十六进制的字段分隔符,而不是我 ...
pig使用问题总结
1,如果是a::tags#'pic'作为参数,传递给另一个函数方法,需要转义多次, 二次调用函数,就是这个方法里,又调用了其他方方法,参数也是层层传递,需要转义两次,尤其是map里的函数, C1 = two_use_cart_filter_by_clkloc_distinct_vid_and_ic(C,0,2,'vid','cvid','tags#\\\'pic\\\'','cpic') ; 一 ...
Pig系列的学习文档
Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Apache Pig如何自定义UDF函数? Apache Pig5行代码怎么实现Hadoop的WordCount? Apache Pig入门学习文档(一) Apache Pig学习笔记(二) Apache Pig学习笔记之内置函数(三)
Pig字符串截取
记录一个Pig字符串截取的实战小例子: 需求如下,从下面的字符串里提取出第2列(冒号后面)的值:
Java代码
1 2 3 4
a:ab#c#d
a:c#c#d
a:dd#c#d
a:zz#c#d
1 2 3 4
a:ab#c#d
a:c#c#d
a:dd#c#d
a:zz#c#d
如果是在java里,方法可能有很多 ...
pig自定义UDF
GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标,例如淘宝,京东都有这样的衡量标准,感兴趣的朋友可以自己科普下这方面的概念知识。 当然散仙今天,并不是来解释概念的,而是记录下最近工作的一些东西,原来我们平台的GMV只有一个总的成交金额,并没有细分到各个系统的GMV的比重,比如搜索端,推荐端,移动端等等。 通过细粒度的分析各个系统所占的比重,对于指导各个系统完善和发展有一定的 ...
如何把Pig的结果存储到Solr中
如何把Pig的结果存储到Solr中,那么可能就会有朋友问了,为什么不存到数据库呢? 不支持还是? 其实只要我们愿意,我们可以存储它的结果集到任何地方,只需要重写我们自己的StoreFunc类即可。 关于如何将Pig分析完的结果存储到数据库,在pig的piggy贡献组织里,已经有了对应的UDF了,piggybank是非apache官方提供的工具函数,里面的大部分的UDF都是,其他公司或着个人在后来 ...
使用Ansj分词器+Pig来统计中文的词频
使用Ansj分词器+Pig来统计中文的词频,Pig的TOKENIZE只支持对英文句子的切分,为什么呢?因为英文的句子非常工整,都是以空格作为分割符的,而相当于中文来说,则不一样,中文的切分,需要有词库支持,才能分割出一个个词汇,或者比较暴力一点的,直接根据算法进行Ngram,也不需要词库支持,但这样切分出来的词汇,可能大部分时候都不太友好,意义也不太大,目前比较不错的开源的分词器有ansj,ik ...
pig的第一个程序
初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。 如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用wordcount,则意味着你踏入了分布式编程的大门。试想一下,你的程序能够成百上千台机器的集群中 ...
使用到Pig来分析线上的搜索日志数据
使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,散仙打算介绍下如何在Pig中,使用用户自定义的UDF ...