来自:http://yangshangchuan.iteye.com/blog/1840481
1、三台机器
host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)
host6(DataNode、TaskTracker)
host8(DataNode、TaskTracker)
vi /etc/hostname(分别给每一台主机指定主机名)
vi /etc/hosts(分别给每一台主机指定主机名到IP地址的映射)
2、新建用户和组
三台机器上面都要新建用户和组
addgroup hadoop
adduser --ingroup hadoop hadoop
更改临时目录权限
chmod 777 /tmp
注销root以hadoop用户登录
3、配置SSH
在host2上面执行
ssh-keygen -t rsa(密码为空,路径默认)
该命令会在用户主目录下创建 .ssh 目录,并在其中创建两个文件:id_rsa 私钥文件,是基于 RSA 算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub 公钥文件,和 id_rsa 文件是一对儿,该文件作为公钥文件,可以公开
cp .ssh/id_rsa.pub .ssh/authorized_keys
把公钥追加到其他主机的authorized_keys 文件中
ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6
ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8
可以在host2上面通过ssh无密码登陆host6和host8
ssh host2
ssh host6
ssh host8
4、准备HADOOP运行环境
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz
tar -xzvf hadoop-1.1.2.tar.gz
在/home/hadoop/.bashrc 中追加:
export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH
重新登录就生效
ssh localhost
which hadoop
5、配置HADOOP运行参数
vi conf/masters
把localhost替换为:host2
vi conf/slaves
删除localhost,加入两行:
host2
host6
host8
vi conf/core-site.xml
Xml代码 收藏代码
<property>
<name>fs.default.name</name>
<value>hdfs://host2:9000</value>
</property>
vi conf/hdfs-site.xml
Xml代码 收藏代码
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/dfs/filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/dfs/filesystem/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
vi conf/mapred-site.xml
Xml代码 收藏代码
<property>
<name>mapred.job.tracker</name>
<value>host2:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/home/hadoop/mapreduce/system</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/mapreduce/local</value>
</property>
6、复制HADOOP文件到其他节点
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host6:/home/hadoop/hadoop-1.1.2
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host8:/home/hadoop/hadoop-1.1.2
7、格式化名称节点并启动集群
hadoop namenode -format
8、启动集群并查看WEB管理界面
start-all.sh
访问http://localhost:50030可以查看 JobTracker 的运行状态
访问http://localhost:50060可以查看 TaskTracker 的运行状态
访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等
9、停止集群
stop-all.sh停止集群
http://yangshangchuan.iteye.com/blog/1837935
分享到:
相关推荐
这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页...
### Nutch 使用指南 #### 一、概述 Nutch 是一个开源项目,旨在帮助用户构建自己的内部网搜索引擎或面向整个互联网的搜索引擎。本指南将基于 Nutch 的版本 0.7,详细介绍如何设置和配置 Nutch 以进行内部网爬取...
nutch 使用文档 Nutch 是一个开源的网络爬虫工具,使用 Java 语言编写,主要用于爬取和索引互联网上的网页。下面是 Nutch 的使用方法和相关知识点。 Nutch 搭建过程 Nutch 的搭建过程主要包括准备工作、安装 ...
**Nutch 使用总结** Nutch 是一个开源的网络爬虫项目,主要用来抓取互联网上的网页并建立索引,为信息检索提供基础。对于初学者来说,它是一个很好的平台,可以深入了解搜索引擎的工作原理并动手实践。 ### 1. ...
本文档将引导你入门Nutch的基本使用,包括环境配置、部署、爬取网页以及搜索功能的实现。 **环境要求:** 1. **JDK 1.5 或更高版本** - Nutch 需要Java开发环境支持,确保你的系统已经安装了Java,并且版本符合要求...
【Nutch 使用总结】 Nutch 是一款开源的 Java 搜索引擎项目,主要功能包括Web爬虫和全文检索。它的设计目标是提供一个可扩展、可定制的搜索解决方案,适合搭建自有的搜索引擎系统。Nutch 提供了从初始化URL集合、...
在实际操作中,开发者可能需要查看Nutch的源代码,特别是`org.apache.nutch.parse`包下的类,如`Parser`、`ParserFactory`等,来了解如何集成自定义的MP3解析功能。 总之,将MP3文件信息解析集成到Nutch中,可以...
《Nutch 入门教程.pdf》这本书籍或文档应该包含了 Nutch 的基础知识、安装配置、使用示例以及常见问题解答等内容。通过阅读此教程,你可以了解如何搭建 Nutch 爬虫环境,编写自定义插件,以及进行定制化抓取和索引。...
由于Nutch使用了一些外部库,如MP3和RTF格式的解析库,你需要手动将这些库添加到项目的Classpath中。可以通过以下步骤实现: 1. 访问Nutch的源码库,找到相应的库文件: - MP3解析库:`...
- **网页抓取**:Nutch使用爬虫技术,通过种子URL开始,遍历互联网上的链接,逐步抓取网页。 - **HTML解析**:抓取的网页会被解析成HTML文档,提取出有用的信息如标题、正文等。 - **链接分析**:Nutch使用...
6. **存储**:Nutch使用HDFS(Hadoop分布式文件系统)存储抓取的数据和索引。 7. **检索**:通过Solr或Elasticsearch等搜索服务器提供查询服务。 三、Nutch配置与设置 学习Nutch,需要熟悉其配置文件,如`conf/...
2. **URL管理**:Nutch 使用 URL 管理系统来跟踪已抓取的网页和待抓取的URL队列。URL通过种子列表开始,并根据链接关系进行扩展。 3. **网页抓取**:Nutch 使用 HTTP 协议抓取网页,支持多种编码格式,并且可以配置...
6. **Link Analysis**:Nutch使用PageRank算法进行链接分析,计算网页的重要性,提升搜索结果的相关性。 7. **配置文件**:Nutch的配置文件非常重要,它们定义了爬虫的行为、抓取策略、抓取间隔、存储路径等参数。...
9. **爬虫调度**:Nutch 使用一个调度器(如 FairScheduler 或 CapacityScheduler)来决定何时及如何分配爬取任务到集群中的节点。 10. **测试框架**:Nutch 使用 JUnit 进行单元测试,确保代码的正确性和稳定性。 ...
Nutch使用Hadoop进行分布式处理,通过MapReduce实现增量索引的计算任务。 3. **中文分词**:由于中文文本没有明显的空格分隔单词,因此中文分词是中文信息处理中的关键步骤。Nutch支持多种中文分词工具,如HanLP、...
2. **分词(Tokenization)**:Nutch使用了Apache Lucene库进行文本分析,包括分词、停用词移除、词干化等预处理步骤,以准备数据供索引使用。 3. **索引(Indexing)**:索引模块将抓取的网页内容转化为可供搜索的...
Nutch 使用了 PageRank 算法进行链接分析,这是一种评估网页重要性的方法。通过考虑网页之间的链接关系,PageRank 能够确定哪些页面在互联网上更具影响力。 5. **分词与索引**: Nutch 内置了 Lucene 搜索库,...
**Nutch 网页爬取总结** **前言** Nutch 是一个开源的网络爬虫项目,由 ...通过熟练掌握 Nutch 的使用,你可以建立自己的搜索引擎,或者进行大规模的数据挖掘任务。同时,Nutch 也是学习网络爬虫原理和技术的好工具。
5. **分词与索引**:Nutch 使用Apache Lucene进行文本分词和索引。分词是将连续的文本分解成独立的词语,索引则是将这些词语与对应的URL关联,以便快速查询。 6. **存储与检索**:Nutch 支持多种存储和检索机制,如...