hadoop是apache的一个项目,由HDFS,MapReduce,HBase,Hive和ZooKeeper等成员组成。HDFS和MapReduce是最基本得2个成员。
源码地址:http://svn.apache.org/repos/asf/hadoop
以下是一个简单的hadoop-site.xml
的配置:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>//你的namenode的配置,机器名加端口
<value>hdfs://10.2.224.46:54310/</value>
</property>
<property>
<name>mapred.job.tracker</name>//你的JobTracker的配置,机器名加端口
<value>hdfs://10.2.224.46:54311/</value>
</property>
<property>
<name>dfs.replication</name>//数据需要备份的数量,默认是三
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>//Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。
<value>/home/wenchu/hadoop/tmp/</value>
</property>
<property>
<name>mapred.child.java.opts</name>//java虚拟机的一些参数可以参照配置
<value>-Xmx512m</value>
</property>
<property>
<name>dfs.block.size</name>//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性校验,默认配置512是checksum的最小单元。
<value>5120000</value>
<description>The default block size for new files.</description>
</property>
</configuration>
分享到:
相关推荐
**Hadoop介绍** Hadoop是Apache软件基金会的一个开源项目,主要设计用于处理和存储大量数据。这个分布式计算框架使得在普通硬件集群上处理PB级别的数据成为可能,它以高容错性和可扩展性著称,是大数据分析的核心...
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...
标题中的“完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 01 Hadoop介绍 共33页”表明这是一份关于Hadoop的大数据云计算课程的初步介绍,共有33页的内容。Hadoop是Apache基金会的一个开源项目,主要...
**Hadoop介绍** Hadoop的设计理念源于Google的GFS(Google File System)和MapReduce论文。它允许在廉价硬件上搭建大规模的数据处理环境,具有高容错性、可扩展性和高效性能。Hadoop的架构基于主从结构,由一个...
Hadoop介绍及实战
### Hadoop介绍与核心组件详解 #### Hadoop概述 Hadoop是一种开源软件框架,主要用于分布式存储和处理大规模数据集。其设计目标是为了处理PB级别的数据,并且能够在数千台商用服务器组成的集群上运行。Hadoop的...
【Hadoop介绍】 Hadoop是开源的分布式计算框架,由Apache软件基金会开发,主要用于处理和存储海量数据。在淘宝技术大学的应届生培训中,Hadoop被作为应对云时代数据处理挑战的重要工具进行讲解。 在云时代的背景下...
hadoop 什么是 Apache Hadoop?Hadoop介绍 Apache Hadoop 是一个开源软件框架,由当时就职于雅虎的 Douglas Cutting 开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。
Hadoop介绍与实践,简要介绍了Hadoop的背景和其相关组成部分原理,并说明了Hadoop的安装步骤
Hadoop介绍环境搭建
云计算开源框架Hadoop介绍.pdf
分布式计算开源框架Hadoop介绍.doc
Hadoop 是一个开源的分布式计算框架,旨在处理和存储海量数据。它的核心设计目标是可扩展性和高容错性,使得即使是复杂的并行数据处理任务也能在普通硬件集群上高效运行。Hadoop 的出现源于Google发布的MapReduce...