Pig入门-环境搭建
本文介绍在Linux RedHat + Hadoop2.2.0+JDK1.7的环境下安装pig-0.14.0.
一、pig安装包下载
下载地址: http://mirrors.hust.edu.cn/apache/pig/pig-0.14.0/
二、安装及配置
1)解压至安装目录
比如: tar -zxvf pig-0.14.0.tar.gz -C /itcast
2) 配置
编辑 .bash_profile文件
添加
export PIG_INSTALL=/itcast/pig-0.14.0
export PIG_CLASSPATH=$HADOOP_HOME/conf/
export PATH=$PATH:$PIG_INSTALL/bin
三、测试
列出当前操作系统中的所有用户
1)将/etc/passwd拷贝至/root目录;
2)运行 pig -x local3)将passwd文件内容装载到pig;
grunt> A = load 'passwd' using PigStorage(':');
4)提取用户名字段;
grunt> B = foreach A generate $0 as id;
5)显示结果。
grunt> dump B;
相关推荐
【Hadoop入门-01-集群搭建】 Hadoop是一个由Apache基金会所开发的开源分布式计算框架,它旨在处理和存储海量数据。Hadoop的核心组件包括HDFS(分布式文件系统)、YARN(运算资源调度系统)以及MAPREDUCE(分布式...
HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术,旨在处理大规模数据集,能够将大规模数据处理工作分配到多个计算机节点上,从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP,并搭建集群...
5. **Hadoop安装与配置**:从安装Java环境到搭建Hadoop集群,再到配置Hadoop参数,这些实践步骤是每个开发者都需要掌握的。 6. **数据输入与输出**:学习如何使用Hadoop的InputFormat和OutputFormat,以及...
通过上述内容,我们不仅了解了Pig的基本概念和使用方法,还学会了如何在实际环境中搭建Pig环境以及如何利用Pig进行数据分析。这对于希望深入学习Hadoop生态系统并掌握大数据处理技术的学习者来说是非常有价值的。
"Hadoop之Hbase从入门到精通" HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 是 Google Bigtable 的开源实现,类似 ...
5. Hadoop开发环境搭建:指导如何安装和配置Hadoop集群,包括单机模式、伪分布式模式和完全分布式模式。 6. Hadoop数据输入与输出:学习如何使用InputFormat和OutputFormat进行数据读取和写入,以及自定义...
通过以上步骤,你可以轻松地在自己的计算机上搭建起Hadoop环境,并进行基本的操作。随着实践经验的积累,还可以进一步学习Hadoop的高级特性和相关的生态系统组件,从而更好地利用大数据技术解决实际问题。
- Hadoop生态系统:包括HBase、Hive、Pig等 - Hadoop的应用场景 - 实践操作:Linux环境配置、Java安装、SSH免密码登录等 2. Hadoop集群搭建及配置(10学时) - 虚拟机与JDK的安装 - 完全分布式集群的搭建 - ...
在开始Hadoop分布式计算之前,我们需要先搭建Hadoop环境。这通常包括以下步骤: 1. 安装Java:Hadoop依赖Java运行环境,确保系统已安装JDK 8或更高版本。 2. 下载Hadoop:从Apache官方网站获取最新稳定版的Hadoop...
- **环境搭建**:安装配置Pig环境。 - **数据导入**:将数据导入到Pig中。 - **数据处理**:编写Pig Latin脚本进行数据处理。 ##### 3.3 使用Pig 具体介绍了如何使用Pig进行数据处理。 - **数据加载**:从HDFS或...
搭建Hadoop集群需要准备一定的硬件环境,比如确保网络连接稳定,节点间通讯顺畅,以及有足够的磁盘空间用于数据存储。 5. 软件依赖: 搭建Hadoop之前,需要安装Java开发工具包(JDK),因为Hadoop是用Java编写的...
你可以编写Java程序或使用Hadoop命令行工具来操作这些数据,熟悉Hadoop环境的搭建和运行流程。 5. 实践项目:通过创建一个简单的MapReduce程序,对“data”中的数据进行统计分析,例如计算文件中单词的频率,或者找...
#### Hadoop源代码的编译与环境搭建 对于初学者来说,了解如何编译Hadoop源代码是非常重要的一步。通常情况下,Hadoop源代码的编译可以通过以下步骤完成: 1. **下载源码包**:从Apache官方站点下载最新的Hadoop...
学习Hadoop的第一步通常是搭建本地或集群环境。这涉及安装Java运行环境、配置Hadoop环境变量、修改Hadoop配置文件等步骤。《Hadoop入门教程》将详细讲解这些过程,以帮助初学者顺利启动Hadoop。 六、Hadoop编程 ...
### Hadoop入门知识点详解 #### 一、Hadoop概述与目标 **Hadoop**是一种能够处理海量数据的大规模分布式计算框架。本课程旨在使学员掌握Hadoop的基本安装配置与管理,能够熟练地在Hadoop环境中处理数据,并具备...
### Hadoop入门实战手册知识点概览 #### 一、概述 **1.1 什么是Hadoop?** Hadoop是一个开源的分布式计算框架,主要用于处理大数据集。它最初由Doug Cutting和Mike Cafarella创建,并在2006年作为Apache项目发布...
学习Hadoop的第一步通常是搭建本地开发环境。这涉及到Java环境的配置、Hadoop的下载、环境变量设置、配置文件修改以及启动和停止Hadoop服务。理解Hadoop的配置参数至关重要,因为它们决定了Hadoop的行为和性能。 六...