解决nutch-1.0的Web前端搜索无结果
这个问题困扰我很久,无论怎么配置,搜索关键字,一直提示以下令人郁闷的信息:
第0-0项 (共有 0 项查询结果):
今天终于解决了。
nutch-1.1命令行中搜索有结果,但是到web前端搜索,始终无结果,很是郁闷,今天终于解决了。
(1)直接把nutch-1.1.war放到Tomcat目录下的webapps,启动tomacat;修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索)
nutch-site.xml必须配置以下参数:
<property>
<name>http.agent.name</name>
必须配置,否则搜索不到结果 <value>nutch-1.0< alue>
<description>HTTP 'User-Agent' </description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\data< alue> data是爬虫生成的目录。参数值请使用绝对路径
<description>Path to root of crawl.</description>
</property>
data目录是爬虫生成的目录,下面有这些目录:
crawldb,
index,
indexes,
linkdb,
segments
(2)请保证tomcat的安装目录不要出现空格,否则搜索结果永远是0
我出现问题的地方就是这里,
我的tomcat安装路径是
D:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\nutch-1.0,
这里的空格有影响,导致无结果,很痛苦,请千万注意。
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/zklth/archive/2010/05/18/5605961.aspx
分享到:
相关推荐
Nutch提供了强大的爬虫功能,能够自动发现互联网上的新页面,并通过其内置的解析器提取有价值的内容。然后,这些内容会被转化为索引,供用户通过查询接口进行搜索。 **环境准备** 1. **Java环境**:Nutch基于Java,...
【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...
在这本书《Web Crawling and Data Mining with Apache Nutch》中,作者详细介绍了如何使用Nutch进行网络爬取和数据挖掘,包括Nutch的安装、配置、使用、以及一些高级功能的探讨。本书适合有一定编程背景的读者,尤其...
- **用途**: 类似于 Tomcat + Web 应用,用于索引和搜索 Nutch 抓取的数据。 - **解压**: 同样解压至某磁盘根目录下。 #### 三、验证 Nutch 的安装 - **步骤**: 打开 Cygwin,进入 `nutch-1.4/runtime/local` ...
Nutch是一个开源的Web爬虫项目,用于抓取互联网上的网页并建立索引,通常与Hadoop等大数据处理框架结合使用。在Windows环境下配置Nutch的运行环境,需要考虑以下几个关键知识点: 1. **开发环境配置**: - **JDK...
- 抓取过程管理涉及到如何高效、有序地遍历Web页面,同时还需要考虑如何避免重复抓取已经访问过的页面。此外,还需要设计合理的策略来控制抓取速度,以免给目标服务器带来过大的负担。 3. **网页内容的去噪处理**...
**Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网...学习和使用 Nutch 可以帮助开发者深入了解 Web 数据抓取和搜索引擎的工作原理,对于大数据处理和信息提取有着重要的实践价值。
### 基于Nutch的Web网站定向采集技术解析 #### 引言 随着互联网的飞速发展,网络已经成为信息传播的重要渠道。大量的科技信息每天都在互联网上产生和更新,这些信息对于科研工作者来说是非常宝贵的资源。然而,...
以上命令将生成新的抓取批次、从Web服务器获取页面、更新数据库、解析页面内容并创建索引。 **步骤九:使用Solr或Elasticsearch建立索引** Nutch可以与Solr或Elasticsearch集成,用于存储和搜索生成的索引。安装...
4. **Nutch工作流程**:Nutch的工作流程主要包括URL发现(抓取种子URL并发现新的链接)、页面下载、解析HTML、提取链接、分词、生成索引文档、建立倒排索引以及提供搜索服务。每个步骤都可以根据实际需求进行定制和...
Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制其运行和管理。 首先,Nutch的命令是其运行和管理的核心,通过不同的命令,Nutch可以执行相应的爬取和索引操作。例如, crawl命令代表了...
3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**:核心组件。 #### 三、安装Cygwin 1. **下载Cygwin**: - 访问Cygwin官网 [http://cygwin.com](http://cygwin.com/) 下载安装程序。 2. **...
Nutch的评分机制不仅考虑了页面的相关性,还可能涉及权威性、链接结构等多种因素。 - **Searcher(搜索器)**:提供用户界面,接受用户输入的查询请求,并从索引库中检索相关信息,返回最匹配的结果列表。 #### ...
6. **配置与插件(Configuration & Plugins)**:Nutch允许开发者通过配置文件定制爬虫的行为,并提供了一套插件系统,方便扩展其功能。例如,你可以编写自定义的URL过滤器、解析器或索引增强插件。 在研究Nutch-...
通过阅读源码,学习者可以了解Nutch如何实现URL的发现、页面下载、解析、分词、索引等关键功能。此外,源码分析还能帮助学习者定制Nutch以满足特定的抓取需求。 “工具”标签则暗示这份资料可能包含了一些辅助工具...
这涉及到配置Nutch的抓取策略,如定义起始URL,设置抓取深度,以及配置过滤规则避免抓取不必要的页面。 **3.2 爬行全网** 随着对Nutch掌握程度的加深,可以尝试全网抓取。这要求对Nutch的数据集和抓取策略有更深入...
Nutch不仅仅是一个搜索引擎,它还包含了一个Web爬虫,能够抓取互联网上的网页,并对抓取的数据进行索引和处理。 Nutch的源代码包含了整个项目的完整实现,包括爬虫、索引器、搜索器以及相关的配置和文档。这对于...