Pig Hive HBase Zookeeper安装和配置
evernote共享链接: https://www.evernote.com/pub/xuyuantree/20_
hadoop@zqh:~$ cd /usr/local
hadoop@zqh:/usr/local$ sudo mkdir pig
hadoop@zqh:/usr/local$ cd /home/zqhxuyuan/download
hadoop@zqh:/home/zqhxuyuan/download$ sudo tar zxf pig-0.10.0.tar.gz
hadoop@zqh:/home/zqhxuyuan/download$ sudo mv pig-0.10.0 /usr/local/pig/
hadoop@zqh:~$ sudo vi /etc/profile
export PIG_HOME=/usr/local/pig/pig-0.10.0
export PATH=$PATH:$PIG_HOME/bin
hadoop@zqh:~$ source /etc/profile
hadoop@zqh:~$ pig -x local 以本地模式启动pig,后面介绍和Hadoop一起使用
HBase,Zookeeper的安装和Pig的一样.解压,创建文件夹,配置文件...
export PIG_HOME=/usr/local/pig/pig-0.10.0
export HBASE_HOME=/usr/local/hbase/hbase-0.92.0
export ZOOKEEPER_HOME=/usr/local/zookeeper/zookeeper-3.3.3
export PATH=$PATH:$PIG_HOME/bin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin
export PIG_HADOOP_VERSION=20 #指定pig连接的hadoop为0.20.x
export PIG_CLASSPATH=$HADOOP_HOME/conf
Pig+Hadoop模式运行max_temp.pig(Hadoop:The Definitive Guide)P371
1.编写pig脚本,注意LOAD的路径
max_temp.pig
LOAD 'micro-tab/sample.txt' --如果以Hadoop模式运行,这里的路径是HDFS中的相对路径
2.启动伪分布式Hadoop集群
hadoop@zqh:~$ cd /usr/local/hadoop/hadoop-0.20.2
hadoop@zqh:/usr/local/hadoop/hadoop-0.20.2$ bin/start-all.sh 启动hadoop
3.拷贝输入文件到HDFS分布式文件系统,注意要和pig脚本LOAD的文件路径要对应
hadoop@zqh:~$ hadoop dfs -put input/ncdc/micro-tab micro-tab
因为设置了HADOOP_HOME所以可以在任意目录下执行hadoop命令
input/ncdc/micro-tab是本地文件系统的文件夹, micro-tab是hadoop HDFS分布式文件系统. 为相对路径.
hadoop@zqh:~$ hadoop dfs -ls
/usr/hadoop/input
/usr/hadoop/output
/usr/hadoop/micro-tab 这就是我们刚刚上传的文件 绝对路径为: hdfs://localhost:9000/usr/hadoop/micro-tab
所以max_temp.pig LOAD的路径其实就是: hdfs://localhost:9000/usr/hadoop/micro-tab/sample.txt
4.hadoop模式运行pig脚本
pig max_temp.pig hadoop模式运行pig脚本
5.hadoop上查看运行情况
localhost:50030
在Completed Jobs中可以看到:
User Name Map Reduce...
hadoop PigLatin:max_temp.pig
localhost:50070
点击Browser the filesystem可以查看在HDFS上的文件系统
分享到:
相关推荐
标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...
安装HBase时,需要考虑集群的Zookeeper配置,因为Zookeeper用于协调HBase的各个组件。 Oozie是Hadoop的工作流调度器,用于管理Hadoop作业(包括MapReduce、Pig、Hive、Sqoop等)和Spark作业的调度。配置Oozie时,...
"hadoop.txt"可能详细讨论了Hadoop的安装、集群配置、优化技巧以及与HBase和Pig的集成。 学习和理解这三个组件对于大数据工程师和数据分析师来说至关重要。Hadoop提供了数据存储和计算的基础,HBase实现了高效的...
总之,HBase的安装和配置是一个涉及多个步骤的过程,包括下载软件、配置环境变量、设置HBase和ZooKeeper的连接,以及启动服务。理解并熟练掌握这些步骤对于管理和维护HBase集群至关重要,特别是在处理大规模数据存储...
此外,这个日志分析系统可能还包括其他组件,比如Zookeeper用于协调集群中的服务,Pig或Spark可能用于更复杂的数据处理任务,Flume或Kafka用于日志数据的采集和传输,以及可能的可视化工具如Tableau或Grafana来展示...
安装完成后,需要配置HBase的配置文件`hbase-site.xml`,其中可能包括设置HDFS(Hadoop分布式文件系统)的地址和Zookeeper的位置。 SSH(Secure Shell)是用于远程登录和安全网络通信的协议。在这个实验中,SSH将...
书中涵盖了HBase的安装配置、数据模型设计、表管理、性能调优、故障排查等方面,让开发者能够快速上手并解决实际问题。 《HBase权威指南》则是一部全面的HBase技术手册,详细阐述了HBase的内部机制和工作原理,包括...
- **生态系统集成**:HBase与其他Hadoop生态系统组件紧密集成,如Pig和Hive为HBase提供了高级的数据处理语言支持,而Sqoop则简化了传统关系型数据库与HBase之间的数据迁移过程。 #### 三、HBase的访问接口 HBase...
接着,书中会详细讲解HBase的安装和配置,包括集群部署、资源管理和性能优化策略。这部分内容对于实际操作HBase至关重要,帮助读者在实践中避免常见问题,提升系统的稳定性和效率。 在深入章节,作者会探讨HBase的...
此外,Pig 和 Hive 还为 HBase 提供了高层语言支持,使得在 HBase 上进行数据统计处理变得非常简单。Sqoop 则为 HBase 提供了方便的 RDBMS 数据导入功能,使得传统数据库数据向 HBase 中迁移变得非常方便。 在实验...
此外,HBase 集成了 Hive、Pig 等大数据处理工具,使得数据分析更加便捷。 总结来说,HBase 是一个面向列的分布式数据库,适合处理海量结构化数据。它的设计目标是提供高性能、低延迟的数据访问,通过 RegionServer...
通过对Hadoop和HBase的深入了解和合理配置,可以有效地管理和分析大规模数据集。Hadoop提供了强大的分布式文件系统和并行计算框架,而HBase则为这些数据提供了一个灵活高效的存储解决方案。随着大数据技术的发展,...
2. **安装 Zookeeper**:Zookeeper 对于 HBase 的运行至关重要,因此也需要事先安装配置。 3. **下载 HBase**:从官方网站下载 HBase 的二进制包或源码包。 4. **配置 HBase**:配置 HBase 的核心参数,包括 HBase...
- **Pig和Hive**: 提供高级语言支持,简化数据统计处理流程。 - **Sqoop**: 用于轻松地将关系型数据库管理系统(RDBMS)中的数据迁移到HBase。 #### 四、HBase的数据模型 ##### 1. **Table & Column Family** - **...
5. **HBase与Hadoop集成**:由于HBase是Hadoop生态系统的一部分,书中有章节介绍了如何与Hadoop MapReduce、HDFS和HBase的交互,以及如何使用HBase作为其他大数据工具(如Pig、Hive)的数据源。 6. **HBase监控与...
HBase是一种基于Hadoop生态系统的分布式列式存储系统,它主要设计用于处理大规模的数据存储,尤其是在廉价的PC服务器集群上...通过与Pig、Hive、Sqoop等工具的集成,HBase进一步增强了其在大数据分析和处理中的实用性。