1、确保这台机子上已经安装了tomcat.
2、把nutch-1.2/nutch-1.2.war拷贝到$TOMCAT_HOME/webapps.
3、进入$TOMCAT_HOME/webapps/WEB-INF/classes.
3.1 配置nutch-site.xml
<property>
<name>http.agent.name</name>
<value>nutch-1.0</value>
<description>HTTP 'User-Agent' request header.</description>
</property>
<property>
<name>searcher.dir</name>
<value>/opt/hadoop/51crawl< alue>
<description>Path to root of crawl.</description>
</property>
3.2、配置hadoop-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.9.170:9080</value>
<description> </description>
</property>
这个配置很重要,主要是通过RPC链接到HDFS上,路径:hdfs://192.168.9.170:9080/opt/hadoop/51crawl
,然后做检索。
3.3、配置master
这里面写上你hadoop运行的master即可。
3.4、配置slave
这里面写上你hadoop运行的slave即可。
4、启动tomcat
总结:在单机上配置和分布式配置唯一的区别是在多了一步hadoop-site.xml。
分享到:
相关推荐
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
分布式检索的关键在于如何有效地管理和分配这些资源,以确保检索效率和准确性。 ##### 3.1 分布式计算基础 分布式计算的基础是将计算任务分发到多个地理位置分散的节点上执行。这要求每个节点能够独立处理部分数据...
MongoDB的分布式分片群集(Sharding Cluster)是一种针对大数据量场景的高效扩展解决方案。在MongoDB中,分片(Sharding)是通过将数据分布在多台服务器上来实现水平扩展,以处理海量数据和高并发请求。这种架构通常...
在这个“janusGraph的linux分布式安装全家桶”中,包含了几个关键组件,这些组件一起构成了一个完整的分布式环境,以便高效地运行JanusGraph。下面将详细介绍这些组件以及它们在安装过程中的作用。 首先,Janus...
### FastDFS5.05 Linux分布式安装知识点详解 #### 一、FastDFS简介 FastDFS是一个高度可扩展的分布式文件系统,主要用于解决大数据量存储问题以及负载均衡问题。该系统适用于以文件为载体的在线服务场景,比如图像...
搜索引擎是分布式架构中的重要组成部分,主要负责快速检索和索引大量数据。典型的应用案例有: - **Lucene**: 强大的文本搜索引擎库,提供了高度定制化的搜索能力。 - **Solr**: 基于Lucene 构建的高性能搜索平台,...
在Linux环境下,Apache Kafka是一种广泛使用的分布式流处理平台,它主要设计用于构建实时的数据管道和流应用程序。这个压缩包提供了在CentOS6.5系统上安装和配置Kafka的详细文档,以及对应的软件版本,包括JDK1.7、...
Linux下的LDAP(Lightweight Directory Access Protocol)是一种轻量级目录访问协议,用于存储和检索分布式目录服务中的数据。它在企业环境中广泛应用于用户身份验证、权限管理和资源共享。本篇文章将详细解析LDAP的...
之后,系统会检测屏幕、键盘、鼠标等硬件,并要求用户选择安装语言和键盘配置,一般情况下,用户会选择简体中文作为安装语言。 以上知识点包含了Linux操作系统的初步介绍,版本分类,安装步骤,注意事项,文件系统...
Sphinx 单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度为:创建100万条记录的索引只需 3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新...
本篇文章主要介绍了基于分布式集群架构下的SSM(Spring、SpringMVC、Mybatis)电商购物平台的设计与实现。在当今的电商行业中,随着用户量和交易量的激增,传统的单机架构已经无法满足高并发和大数据量的处理需求,...
对象存储不依赖于层级结构,而是通过唯一的键(Key)来访问数据,这使得它更容易进行分布式存储和检索。 2. **分布式架构**:MinIO设计为分布式系统,可以在多台服务器上运行,通过数据分片和冗余复制来提高性能和...
传统的存储解决方案(如Rsync、DAS、NAS、SAN等)虽然在某些场景下仍然适用,但随着数据量的爆炸性增长以及对数据访问速度的需求提升,分布式存储系统逐渐成为了主流选择。 **FastDFS**作为一款开源的轻量级分布式...
Solr检索服务器配置详解 Apache Solr是一款基于Java的开源搜索服务器,被广泛应用于全文检索、数据挖掘等领域。它的核心功能在于提供高效的全文检索、命中高亮、 faceted search(分面搜索)、拼写纠错、近似搜索...
在`hdfs-site.xml`中,配置NameNode和DataNode的地址,用于数据存储和检索。`mapred-site.xml`和`yarn-site.xml`分别配置MapReduce框架和YARN资源管理器的相关参数。 配置完成后,初始化HDFS文件系统,这一步会创建...
Linux环境下使用的Solr是一款强大的全文搜索引擎,主要设计用于处理大量数据的快速检索。Solr是Apache Lucene项目的一部分,提供了一个高效、可扩展的搜索和分析平台。在Linux环境中部署和使用Solr,可以充分利用其...
通过使用`bin`目录下的文件,用户可以下载MinIO的二进制包,按照官方文档的指导进行安装和配置,从而搭建自己的分布式存储系统。 总的来说,MinIO作为一款优秀的分布式存储解决方案,它在性能、扩展性、安全性和...
- **安装**:在Unix/Linux环境下,用户可以通过源码编译或者预编译的二进制包进行安装。 - **配置**:配置文件中可以设置服务器地址、端口、索引目录等参数,根据实际需求进行定制。 - **数据导入**:使用...