Pig到底是干什么的。
Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive(一个以SQL方式,操作hadoop的一个开源框架)一样简洁,清晰,易上手!
那么雅虎公司主要使用Pig来干什么呢?
1)吸收和分析用户的行为日志数据(点击流分析、搜索内容分析等),改进匹配和排名算法,以提高检索和广告业务的质量。
2)构建和更新search index。对于web-crawler抓取了的内容是一个流数据的形式,这包括去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。
3)处理半结构化数据订阅(data seeds)服务。包括:deduplcaitin(去冗余),geographic location resolution,以及 named entity recognition.
使用Pig来操作hadoop处理海量数据,是非常简单的,如果没有Pig,我们就得手写MapReduce代码,这可是一件非常繁琐的事,因为MapReduce的任务职责非常明确,清洗数据得一个job,处理得一个job,过滤得一个job,统计得一个job,排序得一个job,编写DAG(带先后顺序依赖的)作业很不方便,这还可以接受,但是每次只要改动很小的一个地方,就得重新编译整个job,然后打成jar提交到Hadoop集群上运行,是非常繁琐的,调试还很困难,所以,在现在的大互联网公司或者是电商公司里,很少有纯写MapReduce来处理各种任务的,基本上都会使用一些工具或开源框架来操作。
随着,数据海啸的来临,传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求,MapReduce逐渐成为了数据处理的事实标准,被应用到各行各业中。所以,我们不再期望所有的客户都能快速开发应用相关代码,只能把客户的工作变得简单,就像使用SQL语言,经过简单培训就可以“云”上操作。
Pig就是为了屏蔽MapReduce开发的繁琐细节,为用户提供Pig Latin这样近SQL语言处理能力,让用户可以更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合,并通过数据流的方式将其组合起来。
Pig的一个简单处理流程,如下所示:
执行引擎如下所示:
在Pig里面,每一步操作,都是一个数据流,非常容易理解,你想要什么,它就能得到什么,即使不能得到,我们也可以通过轻松扩展UDF来实现,比SQL更容易理解,每一步要做什么,非常容易上手和学习,在大数据时代,了解和使用Pig来分析海量数据是非常容易的。
最后告诉大家一个好消息,在最新的Pig(0.14)发行版里,有两个重要的特性:
(1)支持Pig运行在Tez上
(2)支持Orc格式的存储
- 浏览: 1050354 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1441)
- 软件思想&演讲 (9)
- 行业常识 (250)
- 时时疑问 (5)
- java/guava/python/php/ruby/R/scala/groovy (213)
- struct/spring/springmvc (37)
- mybatis/hibernate/JPA (10)
- mysql/oracle/sqlserver/db2/mongdb/redis/neo4j/GreenPlum/Teradata/hsqldb/Derby/sakila (268)
- js/jquery/jqueryUi/jqueryEaseyUI/extjs/angulrJs/react/es6/grunt/zepto/raphael (81)
- ZMQ/RabbitMQ/ActiveMQ/JMS/kafka (17)
- lucene/solr/nuth/elasticsearch/MG4J (167)
- html/css/ionic/nodejs/bootstrap (19)
- Linux/shell/centos (56)
- cvs/svn/git/sourceTree/gradle/ant/maven/mantis/docker/Kubernetes (26)
- sonatype nexus (1)
- tomcat/jetty/netty/jboss (9)
- 工具 (17)
- ETL/SPASS/MATLAB/RapidMiner/weka/kettle/DataX/Kylin (11)
- hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie (190)
- ios/swift/android (9)
- 机器学习&算法&大数据 (18)
- Mesos是Apache下的开源分布式资源管理框架 (1)
- echarts/d3/highCharts/tableau (1)
- 行业技能图谱 (1)
- 大数据可视化 (2)
- tornado/ansible/twisted (2)
- Nagios/Cacti/Zabbix (0)
- eclipse/intellijIDEA/webstorm (5)
- cvs/svn/git/sourceTree/gradle/jira/bitbucket (4)
- jsp/jsf/flex/ZKoss (0)
- 测试技术 (2)
- splunk/flunm (2)
- 高并发/大数据量 (1)
- freemarker/vector/thymeleaf (1)
- docker/Kubernetes (2)
- dubbo/ESB/dubboX/wso2 (2)
最新评论
发表评论
-
CDH与原生态hadoop之间的区别
2017-07-26 12:45 992需要认识的几个问题 ------------------- ... -
Cloudera的CDH和Apache的Hadoop的区别
2017-07-26 12:49 576目前而言,不收费的Hadoop版本主要有三个(均是国外厂商) ... -
大数据、云计算系统高级架构师课程学习路线图
2017-07-24 17:10 598大数据、云计算系统高级架构师课程学习路线图 大数据 ... -
Oozie简介
2017-07-24 12:17 1062在Hadoop中执行的任务有时候需要把多个Map/Reduc ... -
清理ambari安装的hadoop集群
2017-07-24 11:29 925本文针对redhat或者centos 对于测试集群,如果通 ... -
hawk大数据基础知识总结(2)
2017-05-13 15:13 505hawk 英[hɔ:k] 美[hɔk] n. 鹰; 霍克; ... -
hawk大数据基础知识总结(1)
2017-05-13 14:41 796一、大数据概述 1.1大 ... -
ambari是什么
2017-05-11 19:52 648Apache Ambari是一种基于Web的工具,支持Apa ... -
数据仓库中的Inmon与Kimball架构之争
2017-05-11 13:40 696对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至 ... -
Hive的meta 数据支持以下三种存储方式
2017-05-04 13:48 900测试环境下Hive总出问题 ... -
大数据要学习知识
2017-05-02 17:18 49301 技术层面 1.紧贴 ... -
Spark Streaming简介
2017-05-02 16:28 7451.1 概述 Spark Streaming 是Spark ... -
pentaho套件
2017-04-28 15:52 831有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全 ... -
Impala:新一代开源大数据分析引擎
2017-04-22 10:48 729大数据处理是云计算中非常重要的问题,自Google公司提出M ... -
Weka是什么
2017-04-10 13:17 1070Weka的全名是怀卡托智 ... -
解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎
2017-04-10 12:04 841一、HAWQ基本介绍 HAWQ ... -
Kettle的使用
2017-04-06 12:11 600Kettle是一款国外开源 ... -
clouder manager端口7180没有打开为什么
2017-03-27 10:56 1184修改 clouder-manager.repo新建内容我们需要 ... -
Impala与Hive的比较
2017-03-19 13:09 7871. Impala架构 Impala是Clo ... -
Cloudera Manager、CDH零基础入门、线路指导
2017-03-19 12:53 1267问题导读:1.什么是cloudera CM 、CDH?2.C ...
相关推荐
以及数据仓库(如Hive、Pig),用于数据分析。 4. **感知技术**:物联网(IoT)设备产生的大量数据,通过传感器和设备接口收集,用于实时监控和分析。 大数据在实际应用中分为多个领域: 1. **互联网大数据**:...
4. **数据仓库和OLAP工具**:如Hive、Pig、Impala,它们为大数据分析提供了SQL接口,便于数据查询和分析。 5. **流处理工具**:如Kafka、Flink,用于处理连续的数据流,适用于实时分析场景。 6. **可视化工具**:...
动物词汇是英语学习中的一个丰富领域,包括 "cat" 猫,"dog" 狗,"pig" 猪,"duck" 鸭,"rabbit" 兔,"horse" 马,"elephant" 大象,"ant" 蚂蚁,"fish" 鱼,"bird" 鸟,"eagle" 鹰,"beaver" 海狸,"snake" 蛇,...
14. 干煸小猪腰:Fried Pig Kidney with Onion 15. 干豆角回锅肉:Sautéed Spicy Pork with Dried Beans 16. 干锅排骨鸡:Griddle Cooked Spare Ribs and Chicken 17. 咕噜肉:Gulaorou (Sweet and Sour Pork with ...
也就是说你一次记忆一组"1、4、5、7、9、6"数字和记忆"你好、书、篮球、手机、老鼠、饼干"一组词语和一次记忆"热闹非凡、快要下雨了、good night、天边有一团火烧云、pig、我想有个家"一段话,对大脑来说工作强度是...
在大数据领域,Hadoop生态圈包含了众多组件,如HDFS(分布式文件系统)、MapReduce(分布式计算框架)、HBase(NoSQL数据库)、Hive(数据仓库工具)、Pig(数据分析工具)、Flume(日志收集系统)、Sqoop(数据导入...
它能够协调各种Hadoop相关的任务,如MapReduce、Pig、Hive、Sqoop等,并且可以与非Hadoop作业(如Java程序或shell脚本)集成。Oozie提供了一个Web UI,方便用户监控和管理作业流程。 **安装Oozie的准备工作** 在...
14. 干煸小猪腰 - Fried Pig Kidney with Onion:将猪腰切片炒制,口感鲜嫩,带有洋葱的香气。 15. 干豆角回锅肉 - Sautéed Spicy Pork with Dried Beans:干豆角与回锅肉的结合,干香辣味十足。 以上只是部分...
其次,动物词汇是孩子们喜欢的主题,如:panda(熊猫)、monkey(猴子)、dog(狗)、cat(猫)、bird(鸟)、bee(蜜蜂)、bear(熊)、horse(马)、pig(猪)、duck(鸭子)、rabbit(兔子)、tiger(老虎)、...
2. 海鲜类:如鲍鱼红烧肉(Braised Pork with Abalone)、干煸小猪腰(Fried Pig Kidney with Onion)等。 3. 蔬菜类:如东坡方肉(Braised Dongpo Pork)、木耳肉片(Sautéed Sliced Pork with Black Fungus)等。...
8. **动物词汇**:giraffe(长颈鹿)、snake(蛇)、elephant(大象)、zebra(斑马)、bear(熊)、panda(熊猫)、pig(猪)、dog(狗)、cat(猫)、fish(鱼)、wolf(狼)、van(厢式货车)等,让学生熟悉各类...
在动物世界里,孩子们需要了解各种常见的动物,如"cat"(猫)、"dog"(狗)、"pig"(猪)、"duck"(鸭)、"rabbit"(兔)、"horse"(马)、"elephant"(大象)、"ant"(蚂蚁)、"fish"(鱼)、"bird"(鸟)、"snake...
- seem(好像,似乎)→ seem (to be)+adj./n.(似乎是)→ seem to do sth.(似乎要干某事) - bored(厌倦的,烦闷的)→ boring(令人厌倦的) - someone(某人)同义词:somebody - diary(日记,记事簿)→...
Hadoop配置(也称为垫片和Pentaho大数据自适应层)是与特定版本的Hadoop(以及相关工具:Hive,HBase,Sqoop,Pig等)进行通信所需的Hadoop库的集合。 它们被设计为易于配置。 如何建造 pentaho-hadoop-shims使用...
2. **以烹制方法开头的翻译方法**:突出制作方式,如“烤乳猪”(roast suckling pig),并可进一步添加辅料,如“仔姜烧鸡条”(braised chicken fillet with tender ginger)。 3. **以形状或口感开头的翻译方法**...
此外,还有`bird`(鸟)、`bee`(蜜蜂)、`bear`(熊)、`horse`(马)、`pig`(猪)、`duck`(鸭子)、`rabbit`(兔子)、`tiger`(老虎)、`lion`(狮子)、`chick`(小鸡)、`fox`(狐狸)、`hen`(母鸡)、`cow`...
- 干烧(fried):炒至微焦,如"干烧虾" - 火锅(chafing dish):边煮边吃的热菜,如"麻辣火锅" 三、刀功与菜肴形态 中国厨师的刀工技艺精湛,不同形状的食材会影响菜肴的口感和视觉效果。常见的切割方法包括: ...
41. 干拌顺风(Pig Ear in Chili Sauce) - 猪耳朵拌以辣椒,口感弹脆。 42. 高碑店豆腐丝(Shredded Dried Tofu of Gaobeidian) - 地方特色豆腐丝,口感独特。 43. 枸杞凉瓜(Bitter Melon with Chinese Wolfberry) - ...
如what(什么)、what time(什么时间)、what day(星期几)、what date(几月几日)、what color(什么颜色)、what shape(什么形状)、which(哪一个)、which one(哪一个)、who(谁)、why(为什么)、when...
这部分涵盖了多种常见的动物,如cat猫、dog狗、pig猪、duck鸭子、rabbit兔子等,还包括一些大型动物如elephant大象、horse马、lion狮子、tiger老虎等,以及海洋生物如shark鲨鱼、sperm whale抹香鲸。这些词汇对于...