1.
rpm -ivh hadoop-1.0.1-1.i386.rpm
安装目录/usr/share/hadoop
2.
配置文件目录/etc/hadoop
修改hadoop-env.sh,JAVA_HOME=/usr/jdk1.6.0_24/
如果是single-node模式,编辑下面三个文件:
conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
3.
安装ssh
sudo apt-get install ssh
启用无密码登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
以下命令进行测试
ssh localhost
如果成功,则无需键入密码。
如果ssh端口不是默认的22:ssh -p58422 localhost
要修改/etc/hadoop/hadoop-env.sh,增加export HADOOP_SSH_OPTS="-p 58422"
4.
格式化hdfs文件系统
hadoop namenode -format
5.
启动
cd /usr/sbin
chmod +x start-dfs.sh
chmod +x start-all.sh
chmod +x start-mapred.sh
chmod +x slaves.sh
./start-dfs.sh
./start-mapred.sh
6.日志
/var/log/hadoop/
分享到:
相关推荐
标签"Hadoop-1.0.1.tar.gz"暗示了这个文件是一个可以直接下载和安装的Hadoop发行版,用户可以通过解压和配置来搭建自己的Hadoop环境。 压缩包子文件"hadop-1.0.1"目录通常会包含以下内容: - **bin**: 包含可执行...
1. `bin/`: 包含可执行脚本,如启动和停止Hadoop服务的命令。 2. `conf/`: 默认配置文件存放处,可以在这里自定义或修改配置。 3. `lib/`: Hadoop依赖的库文件,包含了运行Hadoop所需的各种JAR包。 4. `src/`: 源...
1. **HDFS (Hadoop Distributed File System)**:Hadoop的分布式文件系统,它将大文件分割成多个数据块,并在集群的不同节点上存储这些数据块的副本,确保数据的高可用性和容错性。通过NameNode管理元数据,DataNode...
Vagrant项目使用Hadoop v2.4.1和Spark v1.0.1启动了由4个虚拟机组成的集群。 node1:HDFS名称节点+ Spark Master node2:YARN ResourceManager + JobHistoryServer + ProxyServer node3:HDFS数据节点+ YARN ...
### Hadoop和SSH的配置与安装...通过以上步骤,我们完成了Hadoop集群的基本配置和安装。这些配置包括了JDK的安装、SSH服务的设置以及Hadoop核心组件的配置。这样就可以开始构建和运行基于Hadoop的大数据分析应用了。
在本例中,使用的是hadoop-1.0.1和hive-0.14.0的组合,而这个问题可以通过降级Hive到一个与Hadoop更兼容的版本来解决。作者尝试了网上的一些解决方案,但并未奏效,最终选择安装了hive-0.8.1。这个经验告诉我们,...
- 将`flink-sql-connector-hive-3.1.2_2.12-1.16.2.jar`和`flink-sql-connector-mongodb-1.0.1-1.16.jar`拷贝到Flink的`lib`目录下。 - 官方推荐使用捆绑的Hive jar包,这可以简化配置过程并提高兼容性。 2. **...
5. 安装和配置Hadoop生态系统的组件,如HDFS、YARN、HBase等。 6. 配置C++开发环境,安装必要的库和开发工具,例如Boost库,以支持C++对Hadoop生态系统的API调用。 使用C++进行开发时,你可以利用Thrift和Pipes框架...
OpenSSH_6.4p1, OpenSSL 1.0.1e-fips 11 Feb 2013 ``` #### 三、配置步骤 配置免密码登录涉及两个主要方面:登录机(客户端)和服务端(被登录机)的配置。 ##### 1. 服务端配置 **第一步:修改服务端的sshd配置...
- 在 Nimbus 节点上启动 UI 和 Nimbus 服务。 ```bash storm ui >/dev/null 2>&1 & storm nimbus >/dev/null 2>&1 & ``` - 在 Supervisor 节点上启动 Supervisor 服务。 ```bash storm supervisor >/dev/...
- **离线分析**:利用Kafka的持久化特性,这些数据也可以存储在硬盘上,供后续的批处理系统(如Hadoop、Spark)进行深度分析和挖掘。 - **数据可靠传输**:Kafka的高吞吐量和持久化特性确保了大量网站数据能够被...
而`apache-storm-1.0.1`可能是Apache Storm的某个版本的打包文件,用户可以解压后按照官方指南安装并运行,以搭建实时计算环境。 在实际应用中,DBus可能用于触发Apache Storm拓扑的启动或停止,或者在不同节点间...
总结来说,"zookeeper离线包.rar"是一个解决Eclipse安装Zookeeper插件困难的解决方案,它包含了必要的JAR文件和安装指南,适用于需要在无网络环境下或对当前Eclipse版本不兼容情况下的插件安装。同时,保持Eclipse...
2. **Storm 集群搭建**:接下来,安装并配置 Storm 1.0.1 版本。这包括设置集群环境,创建工作节点,以及编写 Storm 拓扑。 3. **数据流定义**:在 Storm 拓扑中,你需要定义数据流的来源,这通常是 Kafka。为此,...
Ferry:使用 Docker 的大数据开发环境Ferry 可让您在 AWS、OpenStack 和本地机器上启动、运行和管理大数据集群。 它通过利用诸如类的技术来做到这一点。 渡轮目前支持: Hadoop/YARN(版本 2.5.1) 卡桑德拉(2.1.0 ...