`
泥土的芳香
  • 浏览: 566 次
文章分类
社区版块
存档分类
最新评论
阅读更多
来自:http://yangshangchuan.iteye.com/blog/1840481

1、三台机器

host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)

host6(DataNode、TaskTracker)

host8(DataNode、TaskTracker)

vi  /etc/hostname(分别给每一台主机指定主机名)

vi  /etc/hosts(分别给每一台主机指定主机名到IP地址的映射)



2、新建用户和组

三台机器上面都要新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

更改临时目录权限

chmod 777 /tmp

注销root以hadoop用户登录



3、配置SSH

在host2上面执行

ssh-keygen  -t  rsa(密码为空,路径默认)

该命令会在用户主目录下创建 .ssh 目录,并在其中创建两个文件:id_rsa 私钥文件,是基于 RSA 算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub 公钥文件,和 id_rsa 文件是一对儿,该文件作为公钥文件,可以公开

cp  .ssh/id_rsa.pub  .ssh/authorized_keys

把公钥追加到其他主机的authorized_keys 文件中

ssh-copy-id  -i  .ssh/id_rsa.pub  hadoop@host6

ssh-copy-id  -i  .ssh/id_rsa.pub  hadoop@host8

可以在host2上面通过ssh无密码登陆host6和host8

ssh host2

ssh host6

ssh host8



4、准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加:

export  PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh  localhost

which  hadoop



5、配置HADOOP运行参数

vi conf/masters



把localhost替换为:host2



vi conf/slaves



删除localhost,加入两行:

host2

host6

host8



vi conf/core-site.xml


Xml代码  收藏代码

    <property> 
    <name>fs.default.name</name> 
    <value>hdfs://host2:9000</value> 
    </property> 

vi conf/hdfs-site.xml


Xml代码  收藏代码

    <property> 
     <name>dfs.name.dir</name> 
     <value>/home/hadoop/dfs/filesystem/name</value> 
    </property> 
    <property> 
     <name>dfs.data.dir</name> 
     <value>/home/hadoop/dfs/filesystem/data</value> 
    </property> 
    <property> 
     <name>dfs.replication</name> 
      <value>3</value> 
    </property> 

vi conf/mapred-site.xml                  


Xml代码  收藏代码

    <property> 
     <name>mapred.job.tracker</name> 
      <value>host2:9001</value> 
    </property> 
    <property>  
     <name>mapred.tasktracker.map.tasks.maximum</name> 
     <value>4</value> 
    </property>  
    <property>  
     <name>mapred.tasktracker.reduce.tasks.maximum</name> 
     <value>4</value> 
    </property> 
    <property> 
     <name>mapred.system.dir</name> 
     <value>/home/hadoop/mapreduce/system</value> 
    </property> 
    <property> 
      <name>mapred.local.dir</name> 
     <value>/home/hadoop/mapreduce/local</value> 
    </property> 



6、复制HADOOP文件到其他节点

scp -r /home/hadoop/hadoop-1.1.2  hadoop@host6:/home/hadoop/hadoop-1.1.2
scp -r /home/hadoop/hadoop-1.1.2  hadoop@host8:/home/hadoop/hadoop-1.1.2



7、格式化名称节点并启动集群

hadoop namenode -format



8、启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等



9、停止集群

stop-all.sh停止集群

http://yangshangchuan.iteye.com/blog/1837935
分享到:
评论

相关推荐

    nutch使用&Nutch;入门教程

    这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页...

    Nutch使用指南(英文)

    ### Nutch 使用指南 #### 一、概述 Nutch 是一个开源项目,旨在帮助用户构建自己的内部网搜索引擎或面向整个互联网的搜索引擎。本指南将基于 Nutch 的版本 0.7,详细介绍如何设置和配置 Nutch 以进行内部网爬取...

    nutch使用文档

    nutch 使用文档 Nutch 是一个开源的网络爬虫工具,使用 Java 语言编写,主要用于爬取和索引互联网上的网页。下面是 Nutch 的使用方法和相关知识点。 Nutch 搭建过程 Nutch 的搭建过程主要包括准备工作、安装 ...

    Nutch使用总结 信息检索 建立索引 搜索引擎

    **Nutch 使用总结** Nutch 是一个开源的网络爬虫项目,主要用来抓取互联网上的网页并建立索引,为信息检索提供基础。对于初学者来说,它是一个很好的平台,可以深入了解搜索引擎的工作原理并动手实践。 ### 1. ...

    Nutch使用入门

    本文档将引导你入门Nutch的基本使用,包括环境配置、部署、爬取网页以及搜索功能的实现。 **环境要求:** 1. **JDK 1.5 或更高版本** - Nutch 需要Java开发环境支持,确保你的系统已经安装了Java,并且版本符合要求...

    Nutch 使用总结

    【Nutch 使用总结】 Nutch 是一款开源的 Java 搜索引擎项目,主要功能包括Web爬虫和全文检索。它的设计目标是提供一个可扩展、可定制的搜索解决方案,适合搭建自有的搜索引擎系统。Nutch 提供了从初始化URL集合、...

    mp3文件信息解析-nutch使用

    在实际操作中,开发者可能需要查看Nutch的源代码,特别是`org.apache.nutch.parse`包下的类,如`Parser`、`ParserFactory`等,来了解如何集成自定义的MP3解析功能。 总之,将MP3文件信息解析集成到Nutch中,可以...

    nutch

    《Nutch 入门教程.pdf》这本书籍或文档应该包含了 Nutch 的基础知识、安装配置、使用示例以及常见问题解答等内容。通过阅读此教程,你可以了解如何搭建 Nutch 爬虫环境,编写自定义插件,以及进行定制化抓取和索引。...

    eclipse配置nutch,eclipse配置nutch

    由于Nutch使用了一些外部库,如MP3和RTF格式的解析库,你需要手动将这些库添加到项目的Classpath中。可以通过以下步骤实现: 1. 访问Nutch的源码库,找到相应的库文件: - MP3解析库:`...

    nutch帮助文档;nutch学习 入门

    - **网页抓取**:Nutch使用爬虫技术,通过种子URL开始,遍历互联网上的链接,逐步抓取网页。 - **HTML解析**:抓取的网页会被解析成HTML文档,提取出有用的信息如标题、正文等。 - **链接分析**:Nutch使用...

    Nutch入门教程 高清 带书签

    6. **存储**:Nutch使用HDFS(Hadoop分布式文件系统)存储抓取的数据和索引。 7. **检索**:通过Solr或Elasticsearch等搜索服务器提供查询服务。 三、Nutch配置与设置 学习Nutch,需要熟悉其配置文件,如`conf/...

    apache-nutch-2.3

    2. **URL管理**:Nutch 使用 URL 管理系统来跟踪已抓取的网页和待抓取的URL队列。URL通过种子列表开始,并根据链接关系进行扩展。 3. **网页抓取**:Nutch 使用 HTTP 协议抓取网页,支持多种编码格式,并且可以配置...

    nutch2.2.1-src

    6. **Link Analysis**:Nutch使用PageRank算法进行链接分析,计算网页的重要性,提升搜索结果的相关性。 7. **配置文件**:Nutch的配置文件非常重要,它们定义了爬虫的行为、抓取策略、抓取间隔、存储路径等参数。...

    apache-nutch-2.3.1-src.tar.gz

    9. **爬虫调度**:Nutch 使用一个调度器(如 FairScheduler 或 CapacityScheduler)来决定何时及如何分配爬取任务到集群中的节点。 10. **测试框架**:Nutch 使用 JUnit 进行单元测试,确保代码的正确性和稳定性。 ...

    nutch开发资料 搜索引擎

    Nutch使用Hadoop进行分布式处理,通过MapReduce实现增量索引的计算任务。 3. **中文分词**:由于中文文本没有明显的空格分隔单词,因此中文分词是中文信息处理中的关键步骤。Nutch支持多种中文分词工具,如HanLP、...

    nutch-1.5.1源码

    2. **分词(Tokenization)**:Nutch使用了Apache Lucene库进行文本分析,包括分词、停用词移除、词干化等预处理步骤,以准备数据供索引使用。 3. **索引(Indexing)**:索引模块将抓取的网页内容转化为可供搜索的...

    nutch09版本亲测好用

    Nutch 使用了 PageRank 算法进行链接分析,这是一种评估网页重要性的方法。通过考虑网页之间的链接关系,PageRank 能够确定哪些页面在互联网上更具影响力。 5. **分词与索引**: Nutch 内置了 Lucene 搜索库,...

    nutch网页爬取总结

    **Nutch 网页爬取总结** **前言** Nutch 是一个开源的网络爬虫项目,由 ...通过熟练掌握 Nutch 的使用,你可以建立自己的搜索引擎,或者进行大规模的数据挖掘任务。同时,Nutch 也是学习网络爬虫原理和技术的好工具。

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    5. **分词与索引**:Nutch 使用Apache Lucene进行文本分词和索引。分词是将连续的文本分解成独立的词语,索引则是将这些词语与对应的URL关联,以便快速查询。 6. **存储与检索**:Nutch 支持多种存储和检索机制,如...

Global site tag (gtag.js) - Google Analytics