hadoop配置文件详解、安装及相关操作
1. 在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6
2. 在conf/core-site.xml文件中增加如下内容:
<!-- fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。-->
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配 置namenode和datanode的存放位置,默认就放在这个路径中-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hdfs/tmp</value>
</property>
3. 在conf/hdfs-site.xml中增加如下内容:
<!-- dfs.replication -它决定着 系统里面的文件块的数据备份个数。对于一个实际的应用,它 应该被设为3(这个 数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的 可靠性(系统故障时,也许会造成数据丢失)-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上 的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这 个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值hadoop.tmp.dir, 这 个路径只能用于测试的目的,因为,它很可能会丢失掉一些数据。所以,这个值最好还是被覆 盖。
dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。-->
<property>
<name>dfs.name.dir</name>
<value>/home/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hdfs/data</value>
</property>
<!—解决:org.apache.hadoop.security.AccessControlException:Permission denied:user=Administrator,access=WRITE,inode="tmp":root:supergroup:rwxr-xr-x 。
因为Eclipse使用hadoop插件提交作业时,会默认以 DrWho 身份去将作业写入hdfs文件系统中,对应的也就是 HDFS 上的/user/hadoop , 由于 DrWho 用户对hadoop目录并没有写入权限,所以导致异常的发生。解决方法为:放开 hadoop 目录的权限, 命令如下 :$ hadoop fs -chmod 777 /user/hadoop -->
<property>
<name>dfs.permissions</name>
<value>false</value>
<description>
If "true", enable permission checking in HDFS. If "false", permission checking is turned off, but all other behavior is unchanged. Switching from one parameter value to the other does not change the mode, owner or group of files or directories
</description>
</property>
4. 在conf/mapred-site.xml中增加如下内容:
<!--mapred.job.tracker -JobTracker的主机(或者IP)和端口。-->
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
二、操作命令
1. 格式化工作空间
进入bin目录,运行 ./hadoop namenode –format
2. 启动hdfs
进入hadoop目录,在bin/下面有很多启动脚本,可以根据自己的需要来启动。
* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop
* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack
* stop-mapred.sh 停止Map/Reduce守护
* start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode
* stop-dfs.sh 停止DFS守护
三、Hadoop hdfs 整合
可按如下步骤删除和更改hdfs不需要的文件:
1.将hadoop-core-1.0.0.jar 移动到lib目录下。
2. 将ibexec目录下的文件移动到bin目录下。
3. 删除除bin、lib、conf、logs之外的所有目录和文件。
4. 如果需要修改日志存储路径,则需要在conf/hadoop-env.sh文件中增加:
export HADOOP_LOG_DIR=/home/xxxx/xxxx即可。
四、HDFS文件操作
Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。
1. 查看文件列表
查看hdfs中/user/admin/hdfs目录下的文件。
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -ls /user/admin/hdfs
查看hdfs中/user/admin/hdfs目录下的所有文件(包括子目录下的文件)。
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -lsr /user/admin/hdfs
2. 创建文件目录
查看hdfs中/user/admin/hdfs目录下再新建一个叫做newDir的新目录。
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -mkdir /user/admin/hdfs/newDir
3. 删除文件
删除hdfs中/user/admin/hdfs目录下一个名叫needDelete的文件
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -rm /user/admin/hdfs/needDelete
删除hdfs中/user/admin/hdfs目录以及该目录下的所有文件
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -rmr /user/admin/hdfs
4. 上传文件
上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/hdfs目录下
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs –put /home/admin/newFile /user/admin/hdfs/
5. 下载文件
下载hdfs中/user/admin/hdfs目录下的newFile文件到本机/home/admin/newFile中
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs –get /user/admin/hdfs/newFile /home/admin/newFile
6. 查看文件内容
查看hdfs中/user/admin/hdfs目录下的newFile文件
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs –cat /home/admin/newFile
相关推荐
在Hadoop配置中,还涉及到NameNode高可用性(HA)的配置参数,如: - dfs.namenode.secondary.http-address:为Secondary NameNode指定一个用于管理任务的HTTP地址。 - dfs.nameservices:用逗号分隔的NameService...
Hadoop 配置文件参数详解 Hadoop 配置文件是 Hadoop 集群的核心组件之一,它们控制着 Hadoop 集群的行为和性能。Hadoop 配置文件主要包括 core-site.xml、hdfs-site.xml 和 mapred-site.xml 三个配置文件。这些配置...
总结起来,配置Hadoop集群涉及的主要步骤包括:系统环境准备(如IP和主机名配置)、SSH无密码登录设置、JDK安装及环境变量配置、Hadoop安装和各节点特定配置。每个环节都至关重要,确保了Hadoop集群的稳定运行和高效...
以下是对"Hadoop安装配置详解"的详细阐述: ### 1. 虚拟机安装 在进行Hadoop安装前,首先需要准备一个虚拟机环境。通常选择如VMware或VirtualBox等虚拟机软件。为了便于管理和扩展,建议采用Linux操作系统,如...
二、关键配置文件详解 1. **core-site.xml**:这是Hadoop的核心配置文件,主要用于设置HDFS和YARN的基本参数,如HDFS的默认FS地址、I/O缓冲区大小等。 2. **hdfs-site.xml**:该文件用于配置HDFS的具体参数,如...
### Linux 下 Hadoop 安装及配置详解 #### 前言 随着大数据技术的不断发展,Hadoop 成为了处理大规模数据集的一种重要工具。本文旨在详细介绍如何在 Linux 环境下安装和配置 Hadoop,确保能够顺利地进行大数据处理...
Hadoop HDFS-site 配置文件详解 Hadoop HDFS-site 配置文件是 Hadoop 分布式文件系统(HDFS)的核心配置文件,用于存储和管理 HDFS 集群的配置信息。在本文中,我们将详细介绍 HDFS-site 配置文件的各个部分,并对...
hadoop的 hdfs配置文件 对文件的每项property进行中文描述 希望的家支持 过几天还会献上其他
4. 配置Hadoop配置文件:如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`,设定HDFS和YARN的相关参数。 5. 初始化HDFS:运行`hdfs namenode -format`命令对NameNode进行格式化。 6. 启动...
总之,《Hadoop技术详解》这本书会深入讲解Hadoop的各个方面,包括其核心组件、生态系统、安装配置、操作与管理,以及性能优化和安全策略。对于希望深入理解和操作Hadoop的读者来说,这是一本不可或缺的参考资料。...
本篇将深入探讨Hadoop配置文件的相关知识点,包括它们的作用、主要配置文件及其内容、以及如何根据实际需求进行调整。 一、Hadoop配置文件的作用 Hadoop配置文件主要负责设置集群的各种参数,如数据节点的数量、...
定期备份Hadoop配置文件和数据目录。 - **问题3:性能优化** 调整Hadoop配置参数,如内存大小、数据块大小等。 通过以上步骤,可以成功搭建一个基本的Hadoop集群,并进行简单的测试。随着使用的深入,还需要根据...
二、Hadoop配置文件详解 1. **core-site.xml**:这是Hadoop的核心配置文件,主要配置Hadoop的默认文件系统(如HDFS或本地文件系统)、IO缓冲区大小等。 2. **hdfs-site.xml**:用于配置Hadoop分布式文件系统(HDFS...
Hadoop 配置文件是 Hadoop 的核心配置文件,用于指定 Hadoop 的运行参数和配置信息。主要配置文件包括: 1. hadoop-env.sh:环境变量配置文件,用于指定 Hadoop 的环境变量。 2. core-site.xml:核心站点配置文件,...
1. **编辑配置文件**:在Hadoop的安装目录中找到`etc/hadoop/hdfs-site.xml`文件并打开。 2. **添加属性**:在文件中添加以下内容: ```xml <name>dfs.permissions.enabled <value>false ``` 这一步是为了...
1. **权限问题**:确保所有的Hadoop配置文件和服务都是以hadoop用户身份运行的。 2. **网络问题**:检查网络配置是否正确,确保主机名解析正常。 3. **日志错误**:查阅Hadoop的日志文件,通常位于`$HADOOP_HOME/...
**Hadoop配置详解** Hadoop的核心包括HDFS(Hadoop Distributed File System)和MapReduce。Hadoop的配置主要涉及以下几个方面: 1. **Hadoop环境变量配置**:首先,我们需要在系统环境变量中设置HADOOP_HOME,并...
这不仅包括了Hadoop的安装、环境变量的配置、网络配置,还涉及到了Hadoop的核心配置文件的详细设置,如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`等。此外,通过SSH免密码登录和格式化NameNode的操作确保...
### Hadoop安装与配置知识点详解 #### 一、Hadoop简介及核心组件 **Hadoop** 是Apache软件基金会旗下的一款开源分布式计算平台,其主要功能是处理和存储大规模数据集。Hadoop的核心组件包括 **Hadoop分布式文件...
这些问题可以通过检查配置文件、日志文件等来解决。 五、参考资料 Hadoop2.2.0官方文档:http://hadoop.apache.org/docs/r2.2.0/ ZooKeeper3.4.5官方文档:http://zookeeper.apache.org/doc/r3.4.5/ HBase0.96.2...