平台:操作系统(Linux)(支持了Windows,建议还是用linux)
软件需求:
JDK版本参考(http://wiki.apache.org/hadoop/HadoopJavaVersions)
SSH
HADOOP
安装软件:
以 Ubuntu Linux为例:
$ sudo apt-get install ssh $ sudo apt-get install rsync
下载: stable release(稳定版本)
准备Hadoop集群之旅:
解压 Hadoop*.tar
编辑:etc/hadoop/hadoop-env.sh
# set to the root of your Java installation export JAVA_HOME=/usr/java/latest # Assuming your installation directory is /usr/local/hadoop export HADOOP_PREFIX=/usr/local/hadoop
尝试命令: $ bin/hadoop
安装模式:
1.单机模式:(测试) 守护线程没有启动
拷贝etc/hadoop/*.xml 所有xml 文件到input
$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+' $ cat output/*
2.伪分布式:(测试)(守护线程启动在一台机器上)
2.1 编辑 etc/hadoop/core-site.xml:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
etc/hadoop/hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>
2.2 安装无密ssh登录:
运行命令 $ ssh localhost
是否可以登录
不能就执行以下命令
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3.3 运行:
1.格式化文件系统
$ bin/hdfs namenode -format
2. 开启NameNode 和 DataNode 守护线程:
$ sbin/start-dfs.sh
默认日志存放路径:$HADOOP_HOME/logs
3. 访问以下路径看NameNode是否启动:
默认NameNode - http://localhost:50070/
4.创建 HDFS 必须目录用于执行 MapReduce 任务:
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>
5.拷贝输入文件到HDFS
$ bin/hdfs dfs -put etc/hadoop input
6.跑一下Hadoop自带例子
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
7.检查一下输出文件:
$ bin/hdfs dfs -get output output $ cat output/*
或是执行如下命令
$ bin/hdfs dfs -cat output/*
8. 完成后停止守护线程
$ sbin/stop-dfs.sh
3.分布式:(生产)
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html
相关推荐
Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark初学者指南Hadoop和Spark...
《Hadoop组件程序包详解:助力初学者轻松入门》 Hadoop,作为大数据处理领域的重要框架,因其分布式、可扩展的特性,深受广大开发者和企业的青睐。本文将针对标题为“hadoop组件程序包.zip”的资源,深入解析其中...
第二版适合初学者入门,了解Hadoop的基础概念和基本操作;而第四版则更深入地探讨了Hadoop的演进和新的技术趋势,对有经验的开发者来说更具挑战性和价值。通过阅读这两版书籍,读者可以全面理解Hadoop的发展历程,...
《Hadoop实战第二版》是由陆嘉恒编著的一本深度解析Hadoop技术的专业书籍,其源码的提供为读者提供了亲自动手实践Hadoop的机会,增强了学习效果。Hadoop作为大数据处理领域的基石,它的核心在于分布式存储系统HDFS...
然而,通过一些额外的步骤,我们可以在Windows上进行编译,以获取适用于Windows的Hadoop二进制文件。这个压缩包中包含了编译好的bin目录,里面包含了对Windows至关重要的两个文件:`winutils.exe`和`hadoop.dll`。 ...
这个压缩包文件包含的"hadop实用案例"很可能是为了帮助初学者理解和应用Hadoop技术。以下是关于Hadoop的一些核心知识点,以及可能在这些实例中涉及的内容。 1. **Hadoop架构**:Hadoop主要由两个核心组件构成,HDFS...
《Hadoop Eclipse Plugin 2.6.0:高效开发与测试工具》 Hadoop作为大数据处理的核心框架,为开发者提供了强大的...对于Hadoop初学者和专业开发者来说,熟练掌握并运用这款插件,无疑是提升开发体验和工作效率的关键。
本文来自近一周从零开始摸索的操作的笔记 在此过程中得感谢XXTV 感谢互联网 整理出来一是自己备忘 二是希望能初学Hadoop的人一些参考 并节约宝贵时间 本文分两部分 第一部分为Hadoop2 5 1集群的架设 基于CentOS 7...
《Hadoop权威指南(第二版)》是...总之,《Hadoop权威指南(第二版)》中文版及源码的提供,为Hadoop学习者提供了一个全面且深入的学习路径,无论是初学者还是经验丰富的开发者,都能从中受益,掌握大数据处理的关键技能。
对于初学者来说,通过单机模拟分布式Hadoop环境是学习和理解Hadoop工作原理的有效方式。以下是一个简单的步骤指南: 1. **环境准备**:确保安装了Java环境,并设置好环境变量。 2. **下载Hadoop**:从Apache官网...
对于初学者来说,理解并掌握Hadoop是进入大数据行业的关键步骤。 1. **概述** Hadoop是基于Java实现的一个分布式计算框架,它设计的目标是处理和存储大规模数据。核心组件包括两个:Hadoop Distributed File ...
总的来说,这本书是学习和掌握Hadoop不可或缺的参考资料,无论是初学者还是有一定经验的开发者,都能从中受益。通过深入阅读和实践,读者不仅能理解Hadoop的工作原理,还能学会如何利用Hadoop解决实际问题,为大数据...
在Windows环境下搭建Hadoop 2.7.5开发环境时,常常会遇到一些特定的挑战,尤其是对于初学者而言。本文将详细介绍如何解决在Eclipse中开发Hadoop程序时遇到的`winutils.exe`错误,并提供所需的关键文件,如`hadoop....
通过阅读《Hadoop权威指南》,无论是初学者还是有经验的开发者,都能对Hadoop有全面而深入的理解,从而更好地利用Hadoop处理大数据挑战。这本书不仅是理论知识的积累,更是实践操作的指南,对于从事大数据工作的专业...
这个压缩包包含三本关于Hadoop的重要书籍:《Hadoop实战》、《Hadoop权威指南(第二版)》和《Hadoop源码分析(完整版)》,它们涵盖了从基础到深入的所有关键知识点,对于不同阶段的Hadoop学习者都极具价值。...
Eclipse Hadoop2 插件是为开发人员提供的一种强大工具,它允许用户在Eclipse集成开发环境中(IDE)直接编写、调试和管理Hadoop项目。这个插件针对Hadoop 2.x版本...无论是初学者还是经验丰富的开发者,都能从中受益。
《Hadoop权威指南》是Hadoop领域的经典著作,其配套代码资源可以帮助读者深入理解Hadoop的内部机制和实际应用。这本书全面介绍了Hadoop生态系统,包括HDFS、...无论是初学者还是有经验的开发者,都能从中受益匪浅。
理解这两个文件的作用并正确配置它们,对于在Windows环境中进行大数据处理的初学者和专业人士都至关重要。通过这个压缩包提供的预配置文件,用户可以省去许多配置步骤,快速进入Hadoop的学习和开发阶段。