[Hadoop]转载-Pig的简单介绍

MyEyeOfJava

浏览: 1169013 次
性别:
来自: 北京

最近访客更多访客>>

yuan

jklwan

eye_n

u012363178

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 测试开发
浏览量：71780

: 晨记
浏览量：0

文章分类

社区版块

存档分类

博客分类：

hadoop

Pig是Yahoo!捐献给Apache的一个项目，目前还在Apache孵化器（incubator）阶段，目前版本是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。本文介绍了Pig的安装及简单示例的运行，主要参考/翻译自官方文档的Pig Setup 。

前提条件：

Linux/Unix系统，或带有Cygwin的Windows操作系统，我是用的是Ubuntu 8.04；
Hadoop 0.20.X
JDK 1.6或更高
Ant 1.7（可选，如果想自己编译Pig的话则需要）
JUnit 4.5（可选，如果自己想运行单元测试的话则需要）
Pig的安装

1.下载Pig
　　可以去Pig的官方主页下载最新的Pig，在写本篇文章时，最新版本是Pig 0.5.0
2.解压缩
　　$ tar -xvf pig-0.5.0.tar.gz
　　我一般喜欢把pig装在/opt/hadoop/pig-0.5.0目录下
3.设置环境变量
　　为了便于Pig以后的升级，我创建了一个软链接，环境变量指向软链接的目录，而软链接指向最新的Pig版本。
　　$ ln -s /opt/hadoop/pig-0.5.0 /opt/hadoop/pig
　　编辑/etc/enviroment，在PATH加入Pig的bin子目录路径（也可以修改~/.bashrc或~/.profile）。
4.验证安装完成
　　重新进入终端，键入env命令，应该能看到PATH已经生效。键入pig -help命令，则出现帮助信息，代表Pig已经正确安装完毕。

Pig的运行模式

1.本地模式
　　Pig运行于本地模式，只涉及到单独的一台计算机。
2.MapReduce模式
　　Pig运行于MapReduce模式，需要能访问一个Hadoop集群，并且需要装上HDFS。

Pig的调用方式

Grunt shell方式：通过交互的方式，输入命令执行任务；
Pig script方式：通过script脚本的方式来运行任务；
嵌入式方式：嵌入java源代码中，通过java调用来运行任务。
Pig的示例代码

　　下面就分别介绍这三种不同的调用方式，首先，先展示一下示例需要用到的源代码，这部分源代码与官方文档中的一样，但有如下修改：

修正了官方文档中一个错误，即id.pig最后一行id.out两侧的全角单引号改为半角单引号；
2.修正了官方文档中一个错误，即idmapreduce.java的runIdQuery方法第一行末尾少一个分号；
3.按照Java常见的命名规范，类名首字母大写。
　　script文件：id.pig

view plaincopy
A = load 'passwd' using PigStorage(':');  
B = foreach A generate $0 as id;  
dump B;  
store B into ‘id.out’;

　　local模式的java文件：Idlocal.java

view plaincopy
import java.io.IOException;  
import org.apache.pig.PigServer;  
public class idlocal{  
public static void main(String[] args) {  
try {  
    PigServer pigServer = new PigServer("local");  
    runIdQuery(pigServer, "passwd");  
    }  
    catch(Exception e) {  
    }  
 }  
public static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {  
    pigServer.registerQuery("A = load '" + inputFile + "' using PigStorage(':');");  
    pigServer.registerQuery("B = foreach A generate $0 as id;");  
    pigServer.store("B", "id.out");  
 }  
}

　　mapreduce模式的java文件：Idmapreduce.java

view plaincopy
import java.io.IOException;  
import org.apache.pig.PigServer;  
public class idmapreduce{  
   public static void main(String[] args) {  
   try {  
     PigServer pigServer = new PigServer("mapreduce");  
     runIdQuery(pigServer, "passwd");  
   }  
   catch(Exception e) {  
   }  
}  
public static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {  
   pigServer.registerQuery("A = load '" + inputFile + "' using PigStorage(':');");  
   pigServer.registerQuery("B = foreach A generate $0 as id;");  
   pigServer.store("B", "idout");  
   }  
}

　　两个java类需要进行编译，编译命令：
　　　　javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal.java
　　　　javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce.java
　　其中pig-0.5.0-core.jar如不在当前目录，则要指明其全路径。

1.Grunt shell方式
　　Grunt shell方式首先用pig命令启动，pig命令可以加参数“-x local”代表本地模式，或“-x mapreduce”代表mapreduce模式，默认mapreduce模式。
　　　　$ pig -x local
　　　　$ pig
　　　　$ pig -x mapreduce
　　按行输入命令：
　　　　grunt> A = load 'passwd' using PigStorage(':');
　　　　grunt> B = foreach A generate $0 as id;
　　　　grunt> dump B;
　　　　grunt> store B into 'out';
　　其中，“dump B”表示在屏幕中显示结果，“store B into 'out'”表示把结果输出到out文件/文件夹中。在local模式中，out文件写入到当前目录；mapreduce中，out文件夹则需要给出绝对路径。

2.Pig script方式
　　script方式中，用pig命令启动，后面带要运行的.pig文件即可，如：
　　　　$ pig -x local id.pig
　　　　$ pig id.pig
　　　　$ pig -x mapreduce id.pig

3.嵌入式方式

　　嵌入式方式与运行于运行普通java类方式没有任何不同，如：
　　　　java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce
　　　　java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal

文章出处：http://blog.csdn.net/inkfish/article/details/5205999

分享到：

[Hadoop]Pig与Hive的区别 | [Hadoop]转载-avro数据序列化简介

2012-07-20 11:33
浏览 2645
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

永磁同步电机发电给蓄电池充电控制仿真模型解析 - PMSG与双闭环控制技术: 内容概要：本文详细介绍了永磁同步旋转电机（PMSG）发电给蓄电池充电的控制仿真模型。该模型主要由永磁同步发电机、三相整流桥、整流桥控制模块、测量模块和蓄电池组成。文中首先解释了各组件的功能及其相互协作方式，接着重点讨论了整流桥控制模块的转速、电流双闭环控制机制，尤其是PI控制器的应用。此外，还探讨了储能管理和系统性能优化的方法，如通过LC滤波、自适应偏置、在线参数辨识等手段提高系统的稳定性和效率。最后，通过对实际波形的分析展示了系统的优异表现。适合人群：从事电力系统、新能源领域的研究人员和技术人员，以及对电机控制感兴趣的工程专业学生。使用场景及目标：适用于研究和开发高效的新能源发电与储能系统，旨在提升发电效率、稳定性和可靠性。具体应用场景包括但不限于风电场、太阳能电站、电动汽车充电站等。其他说明：文中提供的代码片段和参数配置均为简化版本，实际应用中需根据具体情况进一步调整优化。

餐饮业人才流失现状分析及对策研究.doc: 餐饮业人才流失现状分析及对策研究

车辆动力学领域LQR/LQG控制的主动悬架模型研究及其MATLAB/Simulink实现: 内容概要：本文详细探讨了LQR（线性二次调节器）和LQG（线性二次高斯）控制在车辆主动悬架系统中的应用。文章首先介绍了LQR控制的基本原理，即通过状态反馈控制使系统达到最优状态。接着，通过Simulink建立了多种自由度的主动悬架模型（2自由度、4自由度和7自由度），并在MATLAB中实现了相应的控制算法。文中展示了不同自由度模型的关键性能指标对比，如悬架动挠度、簧载质量加速度等，并提供了具体的MATLAB代码示例。此外，文章还讨论了LQG控制中卡尔曼滤波的应用，以及其在处理噪声环境中的优势。适合人群：从事车辆工程、控制系统设计的研究人员和技术人员，尤其是对主动悬架系统感兴趣的读者。使用场景及目标：适用于希望深入了解LQR/LQG控制理论及其在车辆主动悬架系统中具体应用的人群。目标是帮助读者掌握如何利用MATLAB/Simulink搭建和优化主动悬架模型，从而提高车辆行驶的舒适性和稳定性。其他说明：文章不仅提供了理论解释，还包括大量实用的代码片段和图表，便于读者理解和实践。特别强调了在不同自由度模型之间的选择依据，以及LQG控制在实际应用场景中的重要性。

离职交接表.doc: 离职交接表.doc

计算机课程设计相关资源: 计算机课程设计相关资源

MATLAB中滚动轴承二自由度动力学建模与故障动态响应仿真: 内容概要：本文详细介绍了如何使用MATLAB进行滚动轴承的二自由度动力学建模，涵盖正常状态及内外圈、滚动体故障的动态响应仿真。首先建立了二自由度的动力学方程，定义了质量、阻尼和刚度矩阵，并根据不同类型的故障（内圈、外圈、滚动体）设置了相应的故障激励力。通过ODE求解器（如ode45）求解微分方程，得到时域内的振动波形。接着进行了频谱分析，展示了不同状态下频谱图的特点，如内圈故障在转频的倍频处出现峰值，外圈故障在较低频段有特征峰，滚动体故障表现为宽频带特性。此外，还提供了故障特征提取的方法，如包络谱分析。适用人群：机械工程领域的研究人员和技术人员，特别是从事机械设备故障诊断和预测性维护的专业人士。使用场景及目标：适用于需要理解和研究滚动轴承在不同工况下的动态行为的研究项目。主要目标是帮助用户掌握如何利用MATLAB进行轴承动力学建模，识别并分析各种故障模式，从而提高设备的可靠性和安全性。其他说明：文中提供的代码可以直接用于实验验证，同时给出了许多实用的提示和注意事项，如选择合适的ODE求解器、合理设置故障幅值以及避免数值发散等问题。

低通滤波器：滤波算法及其在传感器数据处理中的应用: 内容概要：本文详细介绍了低通滤波器的基本概念、不同类型的滤波算法以及它们的应用场景。首先解释了简单的移动平均滤波，这是一种常用且易实现的方法，适用于快速去除高频噪声。接着深入探讨了一阶RC低通滤波器的工作原理和实现方式，强调了alpha系数的选择对滤波效果的影响。此外，还提到了基于环形缓冲区的实时滤波技术和更高阶的巴特沃斯滤波器，后者提供了更好的频率选择性和稳定性。文中通过多个实例展示了如何根据具体的传感器数据特点选择合适的滤波算法，并给出了相应的Python代码片段用于演示和验证。适合人群：从事嵌入式系统开发、传感器数据分析及相关领域的工程师和技术爱好者。使用场景及目标：帮助开发者理解和掌握不同类型低通滤波器的特点与实现方法，以便更好地应用于实际项目中，如处理陀螺仪、温度传感器、心率传感器等设备的数据，提高信号质量和系统的可靠性。其他说明：文章不仅提供了理论知识，还包括了许多实用技巧和注意事项，如滤波器参数的选择、初始化处理、采样率稳定性等问题，这些都是确保滤波效果的关键因素。同时，附带的代码示例可以帮助读者更快地上手实践。

基于自抗扰控制(ADRC)的永磁同步电机(PMSM)矢量控制技术及其实现: 内容概要：本文深入探讨了基于自抗扰控制（ADRC）的永磁同步电机（PMSM）矢量控制技术。首先介绍了PMSM的特点及其广泛应用背景，强调了矢量控制在实现电机高性能控制方面的重要性。针对传统矢量控制存在的不足，引入了ADRC这一新型控制策略，详细解释了ADRC的工作原理，包括跟踪微分器(TD)、扩张状态观测器(ESO)和非线性状态误差反馈控制律(NLSEF)三个组成部分的功能。随后展示了如何将ADRC应用于PMSM的电流环和速度环控制中，并提供了具体的Python代码实现示例。实验结果显示，在面对负载变化等扰动情况下，采用ADRC的控制系统表现出更好的稳定性和平滑性。适用人群：从事电机控制领域的研究人员和技术人员，特别是那些希望深入了解并掌握先进控制算法的人群。使用场景及目标：适用于需要提高永磁同步电机控制系统鲁棒性和响应速度的应用场合，如工业自动化设备、电动汽车等领域。目标是帮助读者理解ADRC的基本概念及其在PMSM矢量控制中的具体应用，从而能够在实际项目中实施该技术。其他说明：文中还讨论了一些实用技巧，如参数调整的方法和注意事项，以及与其他控制方法（如PI控制）的性能对比。此外，作者鼓励读者尝试不同的参数配置以找到最适合特定应用场景的最佳设置。

外贸公司员工离职流程及工作交接程序.xls: 外贸公司员工离职流程及工作交接程序.xls

基于博途1200PLC的教学楼打铃控制系统：数码管显示与定时打铃的实现: 内容概要：本文详细介绍了基于西门子S7-1200 PLC的教学楼打铃控制系统的设计与实现。硬件方面，采用4位7段共阳数码管直接连接PLC的DO点，通过中间继电器或晶体管输出型PLC确保电流足够。软件部分，使用SCL语言编写动态扫描程序，实现数码管的时间显示，并通过系统时钟和定时器实现精确的打铃控制。此外，文章还讨论了数码管显示调试中的常见问题及其解决方案，如鬼影消除、段码转换和时间同步等。适合人群：具备PLC编程基础的技术人员，尤其是对工业自动化感兴趣的工程师。使用场景及目标：适用于需要构建或维护教学楼打铃系统的学校和技术爱好者。目标是掌握PLC编程技巧，理解数码管显示和定时控制的工作原理，以及提高对硬件配置和调试的理解。其他说明：文中提供了详细的代码片段和硬件配置建议，帮助读者更好地理解和实施该项目。同时，强调了项目中的挑战和解决方案，使读者能够避免常见的错误并优化系统性能。

三菱PLC与显触摸屏实现定长送料系统的伺服/步进控制: 内容概要：本文详细介绍了如何利用三菱PLC（具体型号为FX5U-32MT）和显触摸屏构建定长送料控制系统。该系统支持伺服和步进电机两种驱动方式，涵盖了点动、相对定位和绝对定位三大核心功能。文中不仅提供了详细的硬件连接方法，还展示了具体的PLC梯形图编程实例，以及触摸屏界面的设计要点。特别强调了调试过程中可能遇到的问题及其解决方案，如电子齿轮比计算错误、绝对定位前的原点回归、急停信号的正确接入等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些对PLC编程和伺服/步进电机控制有一定基础的人群。使用场景及目标：适用于需要精确控制物料长度的场合，如包装、切割等行业。通过该系统可以提高生产效率，减少人工干预，确保送料精度达到±0.02mm。此外，还可以帮助用户掌握PLC编程技巧，提升对伺服/步进电机的理解。其他说明：文章中提到的一些关键技术点，如点动模式的手动微调、绝对定位的坐标系建立、相对定位的连续作业优化等，对于理解和实施类似的自动化项目非常有帮助。同时，作者分享了许多宝贵的实践经验，有助于读者避开常见陷阱并顺利完成项目部署。

信号处理领域中基于EMD及其改进方法的信号降噪与性能评估: 内容概要：本文详细介绍了如何利用经验模态分解（EMD）及其两种改进方法——集合经验模态分解（EEMD）和互补集合经验模态分解（CEEMDAN），来进行信号降噪。首先构建了一个由多个正弦波组成的混合信号并加入高斯噪声，随后使用三种方法对该带噪信号进行了分解，通过相关系数筛选有效的固有模态函数（IMF），最终重构信号并评估降噪效果。文中提供了详细的Python代码实现，包括信号生成、分解、重构以及性能评估的具体步骤。性能评估主要采用信噪比（SNR）和均方误差（MSE）作为衡量标准，结果显示CEEMDAN在降噪方面表现出色。适合人群：从事信号处理领域的研究人员和技术人员，尤其是那些希望深入了解EMD系列算法及其应用的人群。使用场景及目标：适用于需要对含噪信号进行预处理的各种应用场景，如机械故障诊断、生物医学工程等领域。目标是提高信号的质量，从而更好地支持后续的数据分析和决策制定。其他说明：文中不仅提供了完整的代码实现，还讨论了不同参数的选择对降噪效果的影响，强调了实际应用中需要注意的问题，如计算资源限制、信号特性的考虑等。此外，作者鼓励读者尝试将仿真信号替换为实际数据，以便更好地理解和掌握这些方法的应用技巧。

医学图像分割数据集：眼底血管图像语义分割数据集（约48张数据和标签）: 医学图像分割数据集：眼底血管图像语义分割数据集（约48张数据和标签）【2类别的分割】：背景：0，1：眼底血管（具体参考classes文件）数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，34张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，10张左右图片和对应的mask图片测试集：images图片目录+masks模板目录，4张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下医学图像分割网络介绍：https://blog.csdn.net/qq_44886601/category_12102735.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

汽车工程中MATLAB/Simulink实现电动助力转向(EPS)系统的企业级量产模型: 内容概要：本文详细介绍了如何利用MATLAB和Simulink构建并优化电动助力转向（EPS）系统的企业级量产模型。首先探讨了随速助力曲线的设计，展示了如何通过车速和手力矩传感器输入计算助力扭矩。接着深入讲解了Simulink ASW（应用软件层）子系统的具体实现，包括移动平均滤波、助力特性模块、状态机设计以及回正控制等关键技术环节。文中还特别强调了处理现实世界非线性的挑战，如温度补偿、摩擦补偿和故障诊断方法。此外，讨论了手力闭环控制、PID调节、状态机设计以及摩擦模型简化等方面的技术细节，并提到了模型在环测试（MIL）、硬件在环测试（HIL）等验证手段。适合人群：从事汽车电子控制系统开发的研究人员和技术工程师，尤其是对电动助力转向系统感兴趣的开发者。使用场景及目标：适用于希望深入了解EPS系统内部工作原理及其优化方法的专业人士。主要目标是帮助读者掌握如何使用MATLAB/Simulink搭建高效可靠的EPS模型，从而应用于实际产品开发中。其他说明：文章不仅提供了理论知识，还包括了许多实用的代码片段和实践经验分享，有助于读者更好地理解和应用相关技术。

51单片机光照强度检测系统的实现与优化：滑动变阻器模拟光敏电阻的应用: 内容概要：本文详细介绍了基于51单片机的光照强度检测系统的设计与实现。主要采用滑动变阻器模拟光敏电阻，通过ADC0804进行模数转换，最终在LCD显示屏上显示光照强度等级。文中不仅提供了详细的硬件连接方法，如滑动变阻器与ADC0804的连接、单片机控制ADC的启动和读数等，还包括了完整的C语言源代码，涵盖了ADC读取、数据处理、阈值判断以及Protues仿真的具体步骤。此外，作者还分享了一些实用的调试技巧，如使用_nop_()指令保证信号稳定、加入滤波算法提高数据准确性等。适合人群：具有一定单片机基础知识的学习者、电子爱好者、初学者及希望深入了解ADC工作的工程师。使用场景及目标：①帮助读者掌握51单片机与ADC的工作原理及其应用；②提供一种低成本、易操作的光照检测解决方案；③通过实例演示，让读者学会如何进行硬件连接、编写相关程序并解决常见问题。其他说明：文章强调了硬件连接的注意事项，如ADC0804的CLK引脚接法、滑动变阻器的设置范围等，并给出了具体的代码实现，便于读者理解和实践。同时，还提到了一些优化措施，如加入抗干扰设计、改进数据处理算法等，进一步提升了系统的性能。

基于Comsol的三轴试验数值模拟：D-C、D-P、M-C准则的应用与实现: 内容概要：本文详细介绍了如何利用Comsol软件结合邓肯张（D-C）、德鲁克普拉格（D-P）和摩尔库伦（M-C）准则进行三轴试验的数值模拟。首先简述了各准则的基本概念及其适用范围，接着逐步讲解了在Comsol中创建土样模型、设定材料属性、施加边界条件和载荷的具体步骤。随后，文章展示了求解过程及结果分析方法，强调了通过数值模拟生成应力-应变曲线并与实际试验数据对比的重要性。此外，文中还提供了许多实用技巧，如参数设置、加载步控制、网格划分等，帮助提高模拟精度和效率。适合人群：从事岩土工程研究的技术人员、研究生及以上学历的研究人员。使用场景及目标：适用于需要深入了解土体力学特性的科研工作者，旨在通过数值模拟辅助实际三轴试验，减少实验成本并提升研究深度。具体目标包括掌握不同准则的特点及应用场景，学会使用Comsol进行三轴试验建模与仿真，能够根据模拟结果优化试验设计。其他说明：文章不仅涵盖了理论知识和技术细节，还分享了许多实践经验，有助于读者更好地理解和应用所学内容。

tesseract-langpack-aze-cyrl-4.0.0-6.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统tesseract-langpack-aze_cyrl-4.0.0-6.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf tesseract-langpack-aze_cyrl-4.0.0-6.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

星级酒店员工培训手册.doc: 星级酒店员工培训手册

tesseract-langpack-dan-4.0.0-6.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统tesseract-langpack-dan-4.0.0-6.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf tesseract-langpack-dan-4.0.0-6.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

tesseract-langpack-bos-4.0.0-6.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统tesseract-langpack-bos-4.0.0-6.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf tesseract-langpack-bos-4.0.0-6.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论