`
weitao1026
  • 浏览: 1050354 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
阅读更多

Pig到底是干什么的。

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive(一个以SQL方式,操作hadoop的一个开源框架)一样简洁,清晰,易上手!

那么雅虎公司主要使用Pig来干什么呢?

1)吸收和分析用户的行为日志数据(点击流分析、搜索内容分析等),改进匹配和排名算法,以提高检索和广告业务的质量。
2)构建和更新search index。对于web-crawler抓取了的内容是一个流数据的形式,这包括去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。
3)处理半结构化数据订阅(data seeds)服务。包括:deduplcaitin(去冗余),geographic location resolution,以及 named entity recognition.


使用Pig来操作hadoop处理海量数据,是非常简单的,如果没有Pig,我们就得手写MapReduce代码,这可是一件非常繁琐的事,因为MapReduce的任务职责非常明确,清洗数据得一个job,处理得一个job,过滤得一个job,统计得一个job,排序得一个job,编写DAG(带先后顺序依赖的)作业很不方便,这还可以接受,但是每次只要改动很小的一个地方,就得重新编译整个job,然后打成jar提交到Hadoop集群上运行,是非常繁琐的,调试还很困难,所以,在现在的大互联网公司或者是电商公司里,很少有纯写MapReduce来处理各种任务的,基本上都会使用一些工具或开源框架来操作。



随着,数据海啸的来临,传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求,MapReduce逐渐成为了数据处理的事实标准,被应用到各行各业中。所以,我们不再期望所有的客户都能快速开发应用相关代码,只能把客户的工作变得简单,就像使用SQL语言,经过简单培训就可以“云”上操作。

Pig就是为了屏蔽MapReduce开发的繁琐细节,为用户提供Pig Latin这样近SQL语言处理能力,让用户可以更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合,并通过数据流的方式将其组合起来。

Pig的一个简单处理流程,如下所示:




执行引擎如下所示:


在Pig里面,每一步操作,都是一个数据流,非常容易理解,你想要什么,它就能得到什么,即使不能得到,我们也可以通过轻松扩展UDF来实现,比SQL更容易理解,每一步要做什么,非常容易上手和学习,在大数据时代,了解和使用Pig来分析海量数据是非常容易的。

最后告诉大家一个好消息,在最新的Pig(0.14)发行版里,有两个重要的特性:
(1)支持Pig运行在Tez上
(2)支持Orc格式的存储

分享到:
评论

相关推荐

    大数据开发是什么--大数据开发是干什么的.docx

    以及数据仓库(如Hive、Pig),用于数据分析。 4. **感知技术**:物联网(IoT)设备产生的大量数据,通过传感器和设备接口收集,用于实时监控和分析。 大数据在实际应用中分为多个领域: 1. **互联网大数据**:...

    干货分享据说这是史上最全的大数据分析工具共4页.pdf.z

    4. **数据仓库和OLAP工具**:如Hive、Pig、Impala,它们为大数据分析提供了SQL接口,便于数据查询和分析。 5. **流处理工具**:如Kafka、Flink,用于处理连续的数据流,适用于实时分析场景。 6. **可视化工具**:...

    人教版PEP三年级起点小学英语单词分类汇总.doc

    动物词汇是英语学习中的一个丰富领域,包括 "cat" 猫,"dog" 狗,"pig" 猪,"duck" 鸭,"rabbit" 兔,"horse" 马,"elephant" 大象,"ant" 蚂蚁,"fish" 鱼,"bird" 鸟,"eagle" 鹰,"beaver" 海狸,"snake" 蛇,...

    中国特色美食英文翻译.doc

    14. 干煸小猪腰:Fried Pig Kidney with Onion 15. 干豆角回锅肉:Sautéed Spicy Pork with Dried Beans 16. 干锅排骨鸡:Griddle Cooked Spare Ribs and Chicken 17. 咕噜肉:Gulaorou (Sweet and Sour Pork with ...

    英语词根词缀记忆法(全集).doc

    也就是说你一次记忆一组"1、4、5、7、9、6"数字和记忆"你好、书、篮球、手机、老鼠、饼干"一组词语和一次记忆"热闹非凡、快要下雨了、good night、天边有一团火烧云、pig、我想有个家"一段话,对大脑来说工作强度是...

    Ambari部署Hadoop集群.doc

    在大数据领域,Hadoop生态圈包含了众多组件,如HDFS(分布式文件系统)、MapReduce(分布式计算框架)、HBase(NoSQL数据库)、Hive(数据仓库工具)、Pig(数据分析工具)、Flume(日志收集系统)、Sqoop(数据导入...

    oozie最简单的安装说明+ExtJS-2.2包【亲测100%成功】

    它能够协调各种Hadoop相关的任务,如MapReduce、Pig、Hive、Sqoop等,并且可以与非Hadoop作业(如Java程序或shell脚本)集成。Oozie提供了一个Web UI,方便用户监控和管理作业流程。 **安装Oozie的准备工作** 在...

    中国特色美食英文翻译.docx

    14. 干煸小猪腰 - Fried Pig Kidney with Onion:将猪腰切片炒制,口感鲜嫩,带有洋葱的香气。 15. 干豆角回锅肉 - Sautéed Spicy Pork with Dried Beans:干豆角与回锅肉的结合,干香辣味十足。 以上只是部分...

    小学英语单词分类及常用短语.doc

    其次,动物词汇是孩子们喜欢的主题,如:panda(熊猫)、monkey(猴子)、dog(狗)、cat(猫)、bird(鸟)、bee(蜜蜂)、bear(熊)、horse(马)、pig(猪)、duck(鸭子)、rabbit(兔子)、tiger(老虎)、...

    中国特色美食英文翻译.pdf

    2. 海鲜类:如鲍鱼红烧肉(Braised Pork with Abalone)、干煸小猪腰(Fried Pig Kidney with Onion)等。 3. 蔬菜类:如东坡方肉(Braised Dongpo Pork)、木耳肉片(Sautéed Sliced Pork with Black Fungus)等。...

    沪教版二年级下牛津英语单词手写印刷体字帖.docx

    8. **动物词汇**:giraffe(长颈鹿)、snake(蛇)、elephant(大象)、zebra(斑马)、bear(熊)、panda(熊猫)、pig(猪)、dog(狗)、cat(猫)、fish(鱼)、wolf(狼)、van(厢式货车)等,让学生熟悉各类...

    小学英语必背的单词汇总带音标.doc

    在动物世界里,孩子们需要了解各种常见的动物,如"cat"(猫)、"dog"(狗)、"pig"(猪)、"duck"(鸭)、"rabbit"(兔)、"horse"(马)、"elephant"(大象)、"ant"(蚂蚁)、"fish"(鱼)、"bird"(鸟)、"snake...

    新人教版八年级上册英语全册期末复习必背知识点归纳.doc

    - seem(好像,似乎)→ seem (to be)+adj./n.(似乎是)→ seem to do sth.(似乎要干某事) - bored(厌倦的,烦闷的)→ boring(令人厌倦的) - someone(某人)同义词:somebody - diary(日记,记事簿)→...

    pentaho-hadoop-shims:Hadoop配置

    Hadoop配置(也称为垫片和Pentaho大数据自适应层)是与特定版本的Hadoop(以及相关工具:Hive,HBase,Sqoop,Pig等)进行通信所需的Hadoop库的集合。 它们被设计为易于配置。 如何建造 pentaho-hadoop-shims使用...

    餐饮文化讲课.pptx

    2. **以烹制方法开头的翻译方法**:突出制作方式,如“烤乳猪”(roast suckling pig),并可进一步添加辅料,如“仔姜烧鸡条”(braised chicken fillet with tender ginger)。 3. **以形状或口感开头的翻译方法**...

    新人教版PEP小学英语三至六年级英语单词分类汇总表.doc

    此外,还有`bird`(鸟)、`bee`(蜜蜂)、`bear`(熊)、`horse`(马)、`pig`(猪)、`duck`(鸭子)、`rabbit`(兔子)、`tiger`(老虎)、`lion`(狮子)、`chick`(小鸡)、`fox`(狐狸)、`hen`(母鸡)、`cow`...

    餐饮文化培训课程.pptx

    - 干烧(fried):炒至微焦,如"干烧虾" - 火锅(chafing dish):边煮边吃的热菜,如"麻辣火锅" 三、刀功与菜肴形态 中国厨师的刀工技艺精湛,不同形状的食材会影响菜肴的口感和视觉效果。常见的切割方法包括: ...

    官方发布2158道中餐饭菜英文译名分享.pdf

    41. 干拌顺风(Pig Ear in Chili Sauce) - 猪耳朵拌以辣椒,口感弹脆。 42. 高碑店豆腐丝(Shredded Dried Tofu of Gaobeidian) - 地方特色豆腐丝,口感独特。 43. 枸杞凉瓜(Bitter Melon with Chinese Wolfberry) - ...

    小学英语必背词汇.doc

    如what(什么)、what time(什么时间)、what day(星期几)、what date(几月几日)、what color(什么颜色)、what shape(什么形状)、which(哪一个)、which one(哪一个)、who(谁)、why(为什么)、when...

    六年级英语总复习词汇分类.doc

    这部分涵盖了多种常见的动物,如cat猫、dog狗、pig猪、duck鸭子、rabbit兔子等,还包括一些大型动物如elephant大象、horse马、lion狮子、tiger老虎等,以及海洋生物如shark鲨鱼、sperm whale抹香鲸。这些词汇对于...

Global site tag (gtag.js) - Google Analytics