`
carus
  • 浏览: 29901 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Tomcat中运行nutch的结果

 
阅读更多

1、 复制nutch-1.2.war到到../tomcat7/webapps/

 

2、 修改/webapps/nutch/WEB-INF/classes/nutch-site.xml :

<nutch-conf>

</nutch-conf>

换成

<nutch-conf>

<property>

    <name>searcher.dir</name>

    <value>E:\nutch-1.2\mydir</value>

 </property>

</nutch-conf>

E:\nutch-1.2\mydir指刚才抓取网页时网页保存的文件夹

 

3、最后在浏览器中输入 http://localhost:8080 查看结果

分享到:
评论

相关推荐

    Nutch在Tomcat下的部署.doc

    Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,而Tomcat是一款流行的Java应用服务器,常用来部署Web应用...请确保在操作过程中仔细检查配置文件,以确保Nutch正常运行并能正确索引和搜索网页。

    windows下安装nutch

    【知识点详解】 在Windows环境下安装Nutch涉及到多个...然而,需要注意的是,Nutch在类Unix环境(如Linux)下的运行通常更为稳定和高效,因此,如果你的项目允许,考虑在这样的环境中运行Nutch可能会带来更好的体验。

    Apache Nutch 1.7 在windows和Linux下的安装

    * 之后,需要安装 Tomcat,因为 Nutch 1.7 需要 Tomcat 来提供 Web 服务。 * 最后,需要配置 Nutch 1.7 的环境变量,将 Nutch 1.7 的 bin 目录添加到系统的 PATH 变量中。 7. 结论 本文详细介绍了 Apache Nutch ...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    对于Nutch这样的开源爬虫框架来说,其默认支持的是Linux环境,因此我们需要通过安装Cygwin来确保能够在Windows系统中顺利运行Nutch。 **1.1.1 在线安装** - **服务器选择**:在安装Cygwin时,推荐选择美国的服务器...

    nutch网页爬取总结

    - **安装 Tomcat**:Tomcat 用于运行 Nutch 的 UI 部分,执行 `sudo apt-get install tomcat8`(Ubuntu)或 `yum install tomcat`(CentOS)进行安装。 - **配置 Nutch 查询索引**:配置 Nutch 的 `conf/gora....

    nutch 初学文档教材

    它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与...

    nutch2.2.1安装步骤.docx

    3. apache-tomcat-8.5.39.tar.gz:Tomcat 是一个流行的 Java Servlet 和 JavaServer Pages(JSP)容器,用于运行 Nutch 的 Web 应用程序。 4. jdk-8u201-linux-x64.tar.gz:Java 开发工具包,Nutch 运行和构建的必需...

    Apache Nutch 1.7 学习总结

    - 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题,分别在server.xml和cached.jsp中调整编码设置,确保中文能正确显示...

    windows下nutch的安装.pdf

    文档中提到的Nutch 0.9版本需要特别注意,因为后续版本的Nutch可能在配置和运行机制上有所变化。而Nutch在不同版本的Windows操作系统上的兼容性,以及是否需要特别的依赖库,都需要在安装前仔细阅读Nutch的官方文档...

    windows下nutch的安装配置以及与tomcat的集成.doc

    - Cygwin是一个在Windows平台上模拟Unix环境的软件包,对于Nutch的运行至关重要。按照网上教程完成安装,设定路径为`G:\cygwin\`。 **4. Nutch的下载与解压** - 下载Nutch-1.2版本,解压至Cygwin目录下,如`G:\...

    nutch入门教程

    Index是Nutch中存储索引信息的部分,包括文档的索引项、词频、位置等,用于快速检索。 #### 7. Nutch分布式文件系统 **7.1 概述** Nutch利用分布式文件系统来存储和处理大量的抓取数据。这种设计使得Nutch能够...

    nutch入门.pdf

    为达成这一目标,Nutch需要能够每月爬取数十亿网页,维护索引,执行每秒上千次的搜索请求,并提供高质量的搜索结果,同时还要保证最低的运行成本。 与Lucene的区别:简单来说,Lucene是一个用于实现全文检索的软件...

    nutch_1.4配置

    Nutch与Solr的无缝集成,简化了数据检索和管理流程,无需依赖于Apache Tomcat或Apache Lucene来运行和建立索引。 #### 二、安装前准备 在Windows平台上部署Nutch 1.4,需预先安装以下工具和软件: 1. **Java JDK ...

Global site tag (gtag.js) - Google Analytics