以下是一个简单的hadoop-site.xml的配置:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>//你的namenode的配置,机器名加端口
<value>hdfs://10.2.224.46:54310/</value>
</property>
<property>
<name>mapred.job.tracker</name>//你的JobTracker的配置,机器名加端口
<value>hdfs://10.2.224.46:54311/</value>
</property>
<property>
<name>dfs.replication</name>//数据需要备份的数量,默认是三
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>//Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。
<value>/home/wenchu/hadoop/tmp/</value>
</property>
<property>
<name>mapred.child.java.opts</name>//java虚拟机的一些参数可以参照配置
<value>-Xmx512m</value>
</property>
<property>
<name>dfs.block.size</name>//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性校验,默认配置512是checksum的最小单元。
<value>5120000</value>
<description>The default block size for new files.</description>
</property>
</configuration>
hadoop-env.sh文件只需要修改一个参数:
# The java implementation to use. Required.
export JAVA_HOME=/usr/ali/jdk1.5.0_10
相关推荐
### 分布式计算开源框架Hadoop入门实践 #### 一、Hadoop简介及应用场景 **Hadoop** 是一个由 **Apache** 开源基金会维护的分布式计算框架,它为大规模数据处理提供了一种高效且可靠的方法。Hadoop 最初的设计灵感...
【分布式计算开源框架Hadoop入门实践】 Hadoop是Apache开源组织开发的一款分布式计算框架,它在业界得到了广泛应用,尤其在大型互联网公司如亚马逊、Facebook和Yahoo等中扮演着重要角色。Hadoop的核心设计理念是...
"分布式计算开源框架Hadoop入门实践" 分布式计算开源框架Hadoop是Apache开源组织的一个开源框架,旨在解决大规模数据处理问题。Hadoop框架中最核心的设计就是MapReduce和HDFS。MapReduce的思想是由Google的一篇论文...
总结,Hadoop是一个强大的分布式计算平台,它的学习和实践可以帮助我们处理大数据挑战。从环境搭建、基本概念理解到实际操作和优化,每一步都需要深入研究。这份资料正是为了帮助初学者逐步进入Hadoop的世界,开启...
在本教程中,使用两台机器来构建Hadoop集群,这样做是为了便于初学者理解和操作,因为两台机器的配置步骤相对简单,而且可以避免硬件资源限制的问题。随着学习的深入,可以逐渐增加节点数量来构建更复杂的集群环境。...
InfoQ 提供的相关资料如"InfoQ Hadoop基本流程与应用开发"、"InfoQ 分布式计算开源框架Hadoop介绍"和"InfoQ Hadoop中的集群配置和使用技巧"将帮助你深入学习这些主题,为你的Hadoop之旅提供坚实的理论基础和实践指导...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。它的核心设计思想是分布式存储和计算,能够高效地处理海量数据。本篇将详细介绍如何在本地计算机上搭建Hadoop的伪分布式集群环境,这非常...
Hadoop是一个开源的分布式计算框架,由Apache软件基金会开发和维护,主要应用于大数据处理和分析。Hadoop的三大发行版本分别是Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好...
在大数据处理领域,Hadoop是不可或缺的关键技术。本快速入门将带你深入了解Hadoop生态系统的...通过阅读“Hadoop快速入门.pdf”和“HDFS简介.pdf”,你可以快速掌握这些基本概念和实践技巧,进一步深入Hadoop的世界。
Hadoop是由Apache基金会开发的一个开源框架,它实现了分布式文件系统(HDFS)和MapReduce编程模型,使得大数据处理变得简单、高效。Hadoop2.2.0作为重要的里程碑版本,引入了YARN(Yet Another Resource Negotiator...
Hadoop 是一个开源的分布式计算框架,由Apache软件基金会维护,主要用于处理和存储大规模数据。它以其高容错性和可扩展性在大数据处理领域独树一帜,成为了众多企业和机构的核心技术之一。本资料《Hadoop 入门实践》...
Hadoop是由Apache基金会开发的一个开源框架,主要用于处理和存储大规模数据集。它基于分布式计算模型,灵感来源于Google的MapReduce和GFS(Google File System)。Hadoop的主要组件包括HDFS(Hadoop Distributed ...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力,使得海量数据的处理变得可能。本文将深入探讨Hadoop完全分布式环境的搭建,这对于初学者掌握大数据处理技术至关重要。 首先,...
总之,Hadoop入门教程为初学者提供了对Hadoop核心概念的理解,帮助他们掌握如何安装和使用Hadoop进行数据存储与处理,并理解Hadoop的设计思想和体系架构。通过学习Hadoop,初学者可以入门到大数据处理的广阔天地中,...
【Hadoop入门手册】是一本专为初学者设计的指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和核心概念。Hadoop是Apache软件基金会的一个开源项目,它的出现解决了大数据处理中的诸多挑战,包括数据...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要处理和存储大规模数据。这个“Hadoop的xmind入门笔记”系列涵盖了从基础概念到高级应用的全面学习路径,旨在帮助初学者快速掌握Hadoop的核心知识。 ...