pig热门博客列表 - ITeye博客频道

博客专栏推荐

本月博客排行

年度博客排行

linux pig 安裝使用

0.准备工作 hadoop 服务器 10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master 10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2 10.156.50.37 yanfabu2-37.base.app.dev.yf zk3 ...

linux hive hadoop pig

knight_black_bob 评论(0) 有1751人浏览 2019-06-14 09:52

大数据之Hadoop初识篇

Hadoop介绍（直奔主题）开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。以下地址是详细介绍： http://www.toutiao.com/i641167 ...

Hadoop Pig Hive Hbase Spark

yanshien 评论(0) 有448人浏览 2017-05-15 22:46

Pig script failed to parse: NoViableAltException(84@[])

出现以下错误的主要原因就是filter 语句的逻辑有问题，可以看看by关键词后面的部分。 ERROR 1200: Pig script failed to parse: NoViableAltException(84@[]) org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1000: Error during parsi ...

pig NoViableAltException

商人shang 评论(0) 有2410人浏览 2016-11-01 18:32

我在一个叫http://www.codelast.com/%E5%8E%9F%E5%88%9Bpig%E4%B8%AD%E7%9A%84%E4%B8%80%E4%BA%9B%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5%E6%80%BB%E7%BB%93/编码无悔的博客中发现了一个有趣的问题，也解决了我之前关于在Pig中，中文是否可以匹配的问题。答案是可以的，但要将代码打包 ...

Pig

peterpan007 评论(0) 有1229人浏览 2016-03-28 12:54

pig的函数

判断某个网站的前缀，并给其打上特定的标签值：一个java代码例子如下： Java代码 public String getTag(){ //url文本 String url="http://www.baidu.com.cn"; //标签值 String tags=null; if( ...

pig

weitao1026 评论(0) 有562人浏览 2016-01-16 14:37

pig的入门

在这里贴一个pig源码的分析，做pig很长时间没做笔记，不包含任何细节，以后有机会再说吧 http://blackproof.iteye.com/blog/1769219 hadoop pig入门总结 pig简介 pig数据类型 pig latin语法 pig udf自定义 pig derived衍生推荐书籍 programming pig 推荐网站 http://p ...

pig

weitao1026 评论(0) 有717人浏览 2016-01-16 14:36

Hive集成Tez让大象飞起来

基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez，请参考上篇 ...

hadoop hive pig tez

qindongliang1922 评论(0) 有3212人浏览 2016-01-15 16:52

Apache Tez0.7编译笔记

目前最新的Tez版本是0.8，但还不是稳定版，所以大家还是先下载0.7用吧下载地址： wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-src.tar.gz 由于编译Tez-UI模块，需要使用nodejs，所以建议还是提前安装nodejs 和npm工具，安装方式，可以下载源码安装也可以yum安装，安装步骤： ...

tez hadoop hive pig

qindongliang1922 评论(0) 有2592人浏览 2016-01-15 16:33

Bug死磕之hue集成的oozie+pig出现资源任务死锁问题

这两天，打算给现有的Apache Hadoop2.7.1的集群装个hue，方便业务人员使用hue的可视化界面，来做一些数据分析任务，这过程遇到不少问题，不过大部分最� ...

hadoop pig oozie hue hive

qindongliang1922 评论(0) 有3910人浏览 2016-01-14 15:52

Pig0.12.0和Solr4.10.2一些问题

遇到的有关Pig0.12.0和Solr4.10.2一些问题，总共有3个，如下：（1）问题一：如何在Pig中使用ASCII和十六进制（hexadecimal）的分隔符进行加载，和切分数据？注意关于这个问题，在Pig中，会反应到2个场景中，第一：在Pig加载（load）数据时候。第二：在Pig处理split，或则正则截取数据的时候。先稍微说下，为啥使用十六进制的字段分隔符，而不是我 ...

pig

weitao1026 评论(0) 有676人浏览 2016-01-14 10:09

pig使用问题总结

1,如果是a::tags#'pic'作为参数，传递给另一个函数方法，需要转义多次, 二次调用函数，就是这个方法里，又调用了其他方方法，参数也是层层传递，需要转义两次，尤其是map里的函数， C1 = two_use_cart_filter_by_clkloc_distinct_vid_and_ic(C,0,2,'vid','cvid','tags#\\\'pic\\\'','cpic') ; 一 ...

pig

weitao1026 评论(0) 有546人浏览 2016-01-14 10:07

Pig系列的学习文档

Pig系列的学习文档，希望对大家有用，感谢关注散仙！ Apache Pig的前世今生 Apache Pig如何自定义UDF函数？ Apache Pig5行代码怎么实现Hadoop的WordCount？ Apache Pig入门学习文档（一） Apache Pig学习笔记（二） Apache Pig学习笔记之内置函数（三）

pig

weitao1026 评论(0) 有606人浏览 2016-01-14 10:07

Pig字符串截取

记录一个Pig字符串截取的实战小例子：需求如下，从下面的字符串里提取出第2列（冒号后面）的值： Java代码 1 2 3 4 a:ab#c#d a:c#c#d a:dd#c#d a:zz#c#d 1 2 3 4 a:ab#c#d a:c#c#d a:dd#c#d a:zz#c#d 如果是在java里，方法可能有很多 ...

pig

weitao1026 评论(0) 有702人浏览 2016-01-14 10:07

pig自定义UDF

GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标，例如淘宝，京东都有这样的衡量标准，感兴趣的朋友可以自己科普下这方面的概念知识。当然散仙今天，并不是来解释概念的，而是记录下最近工作的一些东西，原来我们平台的GMV只有一个总的成交金额，并没有细分到各个系统的GMV的比重，比如搜索端，推荐端，移动端等等。通过细粒度的分析各个系统所占的比重，对于指导各个系统完善和发展有一定的 ...

pig

weitao1026 评论(0) 有633人浏览 2016-01-13 10:19

Pig里面内置大量的工具函数

Pig里面内置大量的工具函数，也开放了大量的接口，来给我们开发者使用，通过UDF，我们可以非常方便的完成某些Pig不直接支持或没有的的功能，比如� ...

pig

weitao1026 评论(0) 有678人浏览 2016-01-13 10:18

如何把Pig的结果存储到Solr中

如何把Pig的结果存储到Solr中，那么可能就会有朋友问了，为什么不存到数据库呢？不支持还是？其实只要我们愿意，我们可以存储它的结果集到任何地方，只需要重写我们自己的StoreFunc类即可。关于如何将Pig分析完的结果存储到数据库，在pig的piggy贡献组织里，已经有了对应的UDF了，piggybank是非apache官方提供的工具函数，里面的大部分的UDF都是，其他公司或着个人在后来 ...

pig

weitao1026 评论(0) 有538人浏览 2016-01-13 10:18

使用Ansj分词器+Pig来统计中文的词频

使用Ansj分词器+Pig来统计中文的词频，Pig的TOKENIZE只支持对英文句子的切分，为什么呢？因为英文的句子非常工整，都是以空格作为分割符的，而相当于中文来说，则不一样，中文的切分，需要有词库支持，才能分割出一个个词汇，或者比较暴力一点的，直接根据算法进行Ngram，也不需要词库支持，但这样切分出来的词汇，可能大部分时候都不太友好，意义也不太大，目前比较不错的开源的分词器有ansj，ik ...

pig

weitao1026 评论(0) 有950人浏览 2016-01-11 14:43

pig的第一个程序

初学编程的人，都知道hello world的含义，当你第一次从控制台里打印出了hello world，就意味着，你已经开始步入了编程的大千世界，这和第一个吃螃蟹的人的意义有点类似，虽然这样比喻并不恰当。如果说学会了使用hello world就代表着你踏入了单机编程的大门，那么学会在分布式环境下使用wordcount，则意味着你踏入了分布式编程的大门。试想一下，你的程序能够成百上千台机器的集群中 ...

pig

weitao1026 评论(0) 有629人浏览 2016-01-11 14:42

使用到Pig来分析线上的搜索日志数据

使用到Pig来分析线上的搜索日志数据，散仙本打算使用hive来分析的，但由于种种原因，没有用成，而Pig（pig0.12-cdh）散仙一直没有接触过，所以只能临阵磨枪了，花了两天时间，大致看完了pig官网的文档，在看文档期间，也是边实战边学习，这样以来，对pig的学习，会更加容易，当然本篇不是介绍如何快速学好一门框架或语言的文章，正如标题所示，散仙打算介绍下如何在Pig中，使用用户自定义的UDF ...

pig

weitao1026 评论(0) 有710人浏览 2016-01-10 01:21

Apache Pig中如何使用Replace函数

今天分享一个小案例，介绍下需求，判断某个网站的前缀，并给其打上特定的标签值：一个java代码例子如下： public String getTag(){ //url文� ...

pig hadoop

qindongliang1922 评论(0) 有1571人浏览 2015-11-17 18:48

« 上一页 1 2 3 4 5 6 下一页 »

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载