1. Ubuntu环境安装和基本配置
本例程中在MAC上安装使用的虚拟机Ubuntu系统(64位,desktop);
基本配置
考虑到以后涉及到hadoop的应用便于权限的管理,特别地创建一个hadoop用户,user和group名称均为hadoop。首先创建hadoop用户组:
sudo addgroup hadoop
在刚才创建的分组中创建hadoop用户:
sudo adduser –ingroup hadoop hadoop
创建用户的时候会提示输入密码,以及全名,房间号码等信息。然后,为hadoop用户添加权限,编辑/etc/sudoers文件,注意,在ubuntu下编辑此文件时必须要使用命令(直接使用vim可能导致不能正常保存或系统崩溃):
sudo visudo –f /etc/sudoers
默认使用的时nano编辑器打开,在root下添加一行将使得hadoop用户也具有管理员权限。
创建用户完成后,安装ssh服务openssh-server,使得外部系统可以通过ssh命令直接进行操作。
java环境安装
运行hadoop要求必须要有一个java环境,这里直接通过下面的方式进行安装。
sudo apt-get install openjdk-7-jdk
安装完成后,配置环境变量JAVA_HOME,普通方式我们无法直接看到java安装的地址,这是因为java安装完成后都是通过link文件的方式放到/usr/bin/javac中,可以通过下图的手段看到java的安装地址:
设置环境变量有几种方式,本shell中直接export,只能影响当前shell窗口;本用户目录下的~/.bashrc文件,只会影响本用户;编辑/etc/profile文件则会对所有用户都起作用,这里我们使用第三种方式在文件的最后面加入以下的export语句:
保存退出后并不能起作用,必须要使用source命令手动刷新:
2. 安装和配置Hadoop
本例程中我们使用的是hadoop相对稳定的一个版本2.2.0进行配置(在服务器中下载http://mirror.bit.edu.cn/apache/hadoop/common/stable/)。
将hadoop解压到~/Public/hadoop文件夹下。
编辑文件hadoop/etc/hadoop/hadoop-env.sh文件,设置JAVA_HOME,如果前一步骤中已经设置,这部分也可以跳过。
编辑文件hadoop/etc/hadoop/core-site.xml文件:
注意,在设置hadoop.tmp.dir后,其中的/home/hadoop/Public/hadoop/tmp必须存在,需要手动去mkdir,否则后面会报错。
编辑hadoop/etc/hadoop/mapred-site.xml文件:
编辑hadoop/etc/hadoop/hdfs-site.xml文件:
3. 启动Hadoop
在配置完成之后,开始启动hadoop。
在初次运行hadoop时,需要初始化hadoop文件系统,在hadoop/bin目录下执行下面的命令:
./hdfs namenode –format
执行完成后,如果成功,会在日志看到以下的内容:
然后,在hadoop/sbin目录下运行命令:
./start-dfs.sh
若停止hadoop,依次运行如下命令:
./stop-yarn.sh ./stop-dfs.sh
但整个过程下来,我们发现还是出现错误...,这是因为hadoop编译的库使用的是32位的,而我们的Ubuntu Server使用的是64位,经过查证,需要重新进行编译……,下一章中我们将会进行hadoop环境的编译安装。
Hadoop 2.2.0 - warning: You have loaded library /home/hadoop/2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard.
相关推荐
**使用Hadoop实现WordCount实验报告** 实验报告的目的是详细记录使用Hadoop在Windows环境下实现WordCount应用的过程,包括...此外,实验过程锻炼了解决问题的能力,对Hadoop的整体架构和工作流程有了更直观的认识。
015 Apache Hadoop 单机(本地)模式安装部署与测试 016 Hadoop 伪分布式安装部署 017 查看Hadoop 日志以及日志的格式和命名组成 018 Hadoop 守护进程服务三种启动停止方式 019 测试环境(HDFS Shell基本命令和运行...
- **Hadoop安装与配置**:包括单机模式、伪分布式模式和完全分布式模式的安装步骤,以及配置文件的修改。 - **Hadoop Shell命令**:如`hdfs dfs`命令用于与HDFS交互,`hadoop jar`用于执行MapReduce程序等。 - **...
这包括环境变量设置、集群部署模式(如单机、伪分布式、完全分布式)、配置文件修改等。 六、数据处理与分析 书中详细介绍了如何使用Hadoop进行数据处理,包括使用Hadoop命令行工具、编写MapReduce程序、使用Hive和...
4. **Hadoop安装与配置**:提供详细的步骤指导,帮助读者在本地或集群环境中安装和配置Hadoop。 5. **Hadoop作业提交与监控**:解释如何使用Hadoop命令行工具提交作业,以及如何通过Web界面或命令行工具监控作业...
- **任务进程配置**:使用4个Hadoop实例,在每台机器上启动2个任务进程。 - **性能指标**:单机处理速度可达4MB/s。 ##### 2.3 应用服务 - **服务组件**:包括数据迁移服务、索引合并服务、数据清洗服务、全文检索...
**3.4 运行Hadoop集群的准备工作**:这一步骤包括了配置Hadoop的环境变量以及调整核心配置文件。 **3.5 单机模式的操作方法** - **配置**:修改`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`等配置文件,...
- 这通常包括安装Java环境、配置Hadoop集群、设置Hadoop配置文件等步骤。 - 可以选择单机模式、伪分布式模式或者完全分布式模式进行部署。 2. **编写MapReduce程序** - MapReduce程序通常使用Java语言编写,也...
2. **配置Hadoop环境变量**:设置JAVA_HOME等环境变量。 3. **下载Hadoop安装包**:选择合适的版本进行下载。 4. **解压Hadoop安装包**:并进行基本配置。 5. **配置Hadoop核心文件**:如core-site.xml、hdfs-site....
1. **Hadoop安装与配置**:详细介绍了如何在各种操作系统环境下搭建Hadoop集群,包括单机模式、伪分布式模式和完全分布式模式的配置。 2. **HDFS操作**:包括文件的创建、读取、写入、复制和删除等操作,以及HDFS的...
4. **Hadoop 配置文件**:Hadoop 集群的配置涉及几个关键的 XML 文件,包括 `core-site.xml`(核心配置)、`hdfs-site.xml`(HDFS 配置)、`mapred-site.xml`(MapReduce 配置)和 `yarn-site.xml`(YARN 配置)。...
- **成本效益**:相比传统的大数据处理方案,Hadoop可以在廉价的商品硬件上运行,降低了整体拥有成本。 - **可扩展性**:Hadoop可以轻松地在集群中添加或删除节点,以适应不同规模的数据集。 #### 二、MapReduce...
- **性能调优**:通过对Hadoop配置参数的调整、选择合适的硬件配置、合理设计数据处理流程等方式来提升Hadoop系统的整体性能。 #### 六、案例分析与实践 - **大数据处理**:通过具体案例介绍如何利用Hadoop进行大...
#### 一、整体流程概览 为了搭建一个高效且稳定的Spark集群,我们首先需要理解整个部署过程的关键步骤。本文档将详细介绍如何通过配置三台虚拟机来完成这一任务,包括一台Master节点和两台Slave节点。 **1. 虚拟机...
- 安装配置Hadoop单机环境,熟悉基本操作。 2. **Hadoop集群搭建** - 学习如何搭建Hadoop集群,包括配置多节点环境。 - 理解Hadoop集群的工作机制,如数据分片、任务分配等。 3. **Hadoop分布式文件系统:架构...
- 配置Hadoop环境变量。 - 下载并解压Hadoop安装包。 - 修改配置文件,如`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`或`yarn-site.xml`。 - 格式化HDFS。 - 启动Hadoop服务。 #### 十七、Hadoop进程...
- **Hadoop依赖**:说明HBase与Hadoop的关系,以及如何确保Hadoop环境正确配置。 - **其他工具**:推荐或必需的其他工具和库,如ZooKeeper等。 #### 四、HBase运行模式 - **独立模式**:适用于单机部署,通常用于...
- **分布式处理复杂性**:直接将单机程序扩展到集群环境中运行,虽然理论上可行,但实际上会带来诸如数据分发、任务调度、容错处理等一系列复杂问题。 **1.2 MapReduce框架结构及核心运行机制** **1.2.1 MapReduce...