今天安装了hadoop的单机版,参照网上的一些博文,终于成功了,环境如下:
Hadoop版本:hadoop-0.20.203.0
Java JDK版本:1.6.0_29
linux环境:suse 9
参照博文:
http://www.cnblogs.com/maczpc/archive/2010/01/17/1650191.html
在参照上述博文的基础上,还有如下几个要点:
1、检查SSH是否安装,命令如下:
$ssh -version
2、配置JAVA_HOME,在 conf/hadoop-env.sh 中添加如下内容:
export JAVA_HOME=/opt/jdk1.6.0_29
3、检查hadoop配置:
conf/core-site.xml内容如下:
...
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml内容如下:
...
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml内容如下:
...
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
4、以root方式启动,会遇到问题,提示如下:
hadoop Unrecognized option: -jvm
检查bin/hadoop,发现如下内容:
if [[ $EUID -eq 0 ]]; then
HADOOP_OPTS="$HADOOP_OPTS -jvm server $HADOOP_DATANODE_OPTS"
else
HADOOP_OPTS="$HADOOP_OPTS -server $HADOOP_DATANODE_OPTS"
fi
如果是root用户启动,需要传 -jvm参数,不知是何用意,暂时先注掉,如下所示:
# if [[ $EUID -eq 0 ]]; then
# HADOOP_OPTS="$HADOOP_OPTS -jvm server $HADOOP_DATANODE_OPTS"
# else
HADOOP_OPTS="$HADOOP_OPTS -server $HADOOP_DATANODE_OPTS"
# fi
启动正常
5、格式化新的文件系统,启动hadoop
$bin/hadoop namenode –format
$bin/start-all.sh
6、启动完毕,可以通过如下地址查看启动情况:
NameNode - http://host:50070/
JobTracker - http://host:50030/
分享到:
相关推荐
- 在虚拟机Ubuntu上安装Hadoop单机模式和集群; - 编写一个用Hadoop处理数据的程序,并在单机和集群上运行。 - **实验环境**: - 虚拟机:VMware 9 - 操作系统:Ubuntu 12.04 (服务器版),Ubuntu 14.10 (桌面版...
标题“Ubuntu 14.04.1 + Hadoop 2.4 完全分布式搭建要点”涉及到的是在Ubuntu 14.04.1操作系统上安装和配置Hadoop 2.4版本的过程,这是一个大数据处理框架,常用于分布式存储和计算任务。Hadoop的核心组件包括HDFS...
#### 二、Hadoop单机模式配置流程 - **系统环境搭建**: - **操作系统**:Ubuntu 18.04 - **Hadoop版本**:基于原生Hadoop 2.7.1 - **Java环境**:JDK 1.8 - **创建Hadoop用户**:创建一个登录用户`hadoop`,设置...
安装部署ZooKeeper需要理解它的三种安装模式:单机模式、伪集群模式和集群模式。单机模式适用于开发环境,而集群模式适用于生产环境。在配置文件中,需要指定服务器列表、客户端端口以及ZooKeeper的数据存储路径。...
1. 文档目的和参考文档:文档的目的是为开发者提供Linux单机环境下Hadoop HDFS伪分布式集群的安装步骤,包括集群配置和基本操作。文档中还提到了相关参考链接,例如《Hadoop: Setting up a Single Node Cluster》,...
- 这通常包括安装Java环境、配置Hadoop集群、设置Hadoop配置文件等步骤。 - 可以选择单机模式、伪分布式模式或者完全分布式模式进行部署。 2. **编写MapReduce程序** - MapReduce程序通常使用Java语言编写,也...
### Hadoop技术要点详解 #### 一、海量数据处理平台架构演变 随着互联网技术的快速发展,数据量呈爆炸性增长,传统的数据处理方法已无法满足需求。为了应对大规模数据处理的挑战,各种分布式数据处理平台应运而生...
实验报告通常会涵盖以下要点: - 实验目的:介绍为什么选择Apriori算法和Hadoop进行结合,以及并行化的目标。 - 算法原理:解释Apriori算法的基本思想和并行化策略。 - 实验环境:描述使用的Hadoop版本、硬件配置...
通过以上内容,我们可以看到Hadoop集群的不同运行模式及其配置要点。对于初学者来说,理解这些基础知识是非常重要的,它不仅有助于搭建和管理Hadoop集群,还能帮助我们更好地利用Hadoop的强大功能解决大数据处理问题...
通过以上对《大数据技术与应用赛题库》的详细介绍,我们可以看到,该赛题库不仅涵盖了大数据处理的基础知识和技术要点,还涉及到了实际场景中的具体应用,这对于参赛者来说是一次全面且深入的学习机会。希望每位参赛...
- Hadoop:HBase依赖于Hadoop的分布式文件系统(HDFS),需要安装并配置好Hadoop环境。 - 文件系统选择:包括本地文件系统、HDFS、S3等,根据实际需求选择合适的文件系统。 - **安装方式**: - **Apache Binary ...
- 安装过程中需要注意Java环境和Hadoop版本的兼容性。 - 配置文件`hbase-site.xml`和`hbase-default.xml`对于定制化HBase环境至关重要。 4. **客户端API的使用**: - 掌握基本的CRUD操作是开发HBase应用程序的...
#### 关键技术要点 1. **背景与动机**: - **单机RDF数据存储的问题**:随着数据量的增长,单机存储方案难以应对大量的三元组数据,导致查询效率低下。 - **云计算带来的机遇**:通过采用分布式计算框架,如...
- Hadoop运行模式包括单机版、伪分布式和分布式,SecondaryNameNode并不作为NameNode的热备,而是帮助合并EditLog,减少NameNode重启时间。 - 大数据的特点包括Volume(海量)、Variety(多样)、Velocity(快速)...
随着技术的发展,HANA存储方案经历了从单机到集群,再到与HANA DT、HANA Vora和Hadoop的集成,以提升性能和扩展能力。同时,HANA还支持虚拟化和私有云部署,如SAP HANA BI/DW,为ERP加速,以及通过Enterprise ...
- **Local模式**:单机测试,所有计算都在本地执行。 - **Standalone模式**:Spark自带的集群管理模式。 - **YARN模式**:集成于Hadoop YARN资源管理器。 - **Mesos模式**:可在Mesos集群上运行。 5. **Spark...
传统的数据处理工具,如Hadoop,是批处理方式的,它们处理一组数据并分析后给出结果。与此不同,Storm专注于处理持续到来的数据流,并能够以极快的速度更新结果。 书中提到的Storm的主要组件包括Spouts和Bolts。...
下面,我们将详细梳理这些知识要点。 一、科学大数据的背景与挑战 随着21世纪科学技术的快速发展,大数据在科学领域的应用日益广泛,涉及电子商务、卫星遥感、高能物理、现代新农业等多个领域。科学大数据具有复杂...