nutch web页面的配置 - - ITeye博客

`

uqortbsa

浏览: 14940 次
性别:
来自: 上海

最近访客更多访客>>

dreamer-jack

wuzhxun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (17)

社区版块

存档分类

最新评论

gaopengxiang417：这个是由于你在写入文件以后，没有flush到文件里面，所以在读 ...
ObjectInputStream

nutch web页面的配置

Web Tomcat XML Apache .net

阅读更多

解决nutch-1.0的Web前端搜索无结果

这个问题困扰我很久，无论怎么配置，搜索关键字，一直提示以下令人郁闷的信息：

第0-0项 (共有 0 项查询结果):

今天终于解决了。

nutch-1.1命令行中搜索有结果，但是到web前端搜索，始终无结果，很是郁闷，今天终于解决了。

(1)直接把nutch-1.1.war放到Tomcat目录下的webapps，启动tomacat；修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索)

nutch-site.xml必须配置以下参数：

<property>
<name>http.agent.name</name> 必须配置，否则搜索不到结果 <value>nutch-1.0< alue>
<description>HTTP 'User-Agent' </description>
</property>

<property>
<name>searcher.dir</name>
<value>D:\data< alue> data是爬虫生成的目录。参数值请使用绝对路径
<description>Path to root of crawl.</description>
</property>

data目录是爬虫生成的目录，下面有这些目录：
crawldb,
index,
indexes,
linkdb,
segments

(2)请保证tomcat的安装目录不要出现空格，否则搜索结果永远是0

我出现问题的地方就是这里，

我的tomcat安装路径是
D:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\nutch-1.0，

这里的空格有影响，导致无结果，很痛苦，请千万注意。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/zklth/archive/2010/05/18/5605961.aspx

分享到：

输入值进行初始化 | 内部类的学习（很多盗版的）

2010-08-16 16:06
浏览 1057
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch安装配置文档: ### Nutch 安装与配置详解 #### 一、引言 Nutch 是一款基于 Java 开发的开源 Web 搜索引擎框架，它提供了强大的搜索引擎功能，包括网页抓取、索引构建以及搜索服务等。本篇文章将根据提供的文档标题、描述、标签及...

搭建nutch web开发环境: Nutch提供了强大的爬虫功能，能够自动发现互联网上的新页面，并通过其内置的解析器提取有价值的内容。然后，这些内容会被转化为索引，供用户通过查询接口进行搜索。 **环境准备** 1. **Java环境**：Nutch基于Java，...

Nutch 安装与配置文档: 【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目，主要负责网页抓取、索引和搜索。在Windows环境下，为了运行Nutch，我们需要先安装Cygwin，这是一个提供Unix-like环境的工具，使得Windows用户可以执行类似于...

Web Crawling and Data Mining with Apache Nutch: 在这本书《Web Crawling and Data Mining with Apache Nutch》中，作者详细介绍了如何使用Nutch进行网络爬取和数据挖掘，包括Nutch的安装、配置、使用、以及一些高级功能的探讨。本书适合有一定编程背景的读者，尤其...

nutch_1.4在windows下安装配置.pdf: - **用途**: 类似于 Tomcat + Web 应用，用于索引和搜索 Nutch 抓取的数据。 - **解压**: 同样解压至某磁盘根目录下。 #### 三、验证 Nutch 的安装 - **步骤**: 打开 Cygwin，进入 `nutch-1.4/runtime/local` ...

Nutch程序运行环境配置: Nutch是一个开源的Web爬虫项目，用于抓取互联网上的网页并建立索引，通常与Hadoop等大数据处理框架结合使用。在Windows环境下配置Nutch的运行环境，需要考虑以下几个关键知识点： 1. **开发环境配置**： - **JDK...

基于Nutch的Web网站定向采集系统: - 抓取过程管理涉及到如何高效、有序地遍历Web页面，同时还需要考虑如何避免重复抓取已经访问过的页面。此外，还需要设计合理的策略来控制抓取速度，以免给目标服务器带来过大的负担。 3. **网页内容的去噪处理**...

nutch: **Nutch 概述** Nutch 是一个开源的网络爬虫项目，主要设计用于抓取、索引和搜索互联网...学习和使用 Nutch 可以帮助开发者深入了解 Web 数据抓取和搜索引擎的工作原理，对于大数据处理和信息提取有着重要的实践价值。

基于Nutch的Web网站定向: ### 基于Nutch的Web网站定向采集技术解析 #### 引言随着互联网的飞速发展，网络已经成为信息传播的重要渠道。大量的科技信息每天都在互联网上产生和更新，这些信息对于科研工作者来说是非常宝贵的资源。然而，...

搭建nutch开发环境步骤: 以上命令将生成新的抓取批次、从Web服务器获取页面、更新数据库、解析页面内容并创建索引。 **步骤九：使用Solr或Elasticsearch建立索引** Nutch可以与Solr或Elasticsearch集成，用于存储和搜索生成的索引。安装...

nutch开发资料搜索引擎: 4. **Nutch工作流程**：Nutch的工作流程主要包括URL发现（抓取种子URL并发现新的链接）、页面下载、解析HTML、提取链接、分词、生成索引文档、建立倒排索引以及提供搜索服务。每个步骤都可以根据实际需求进行定制和...

Nutch搜索引擎·Nutch简单应用（第3期）: Nutch搜索引擎能够对局域网和整个Web进行爬取，且提供了一个命令行工具来控制其运行和管理。首先，Nutch的命令是其运行和管理的核心，通过不同的命令，Nutch可以执行相应的爬取和索引操作。例如， crawl命令代表了...

nutch的安装方法，好用: 3. **Tomcat**：Web服务器，用于部署Nutch的Web界面。 4. **Nutch**：核心组件。 #### 三、安装Cygwin 1. **下载Cygwin**： - 访问Cygwin官网 [http://cygwin.com](http://cygwin.com/) 下载安装程序。 2. **...

nutch框架搜索引擎: Nutch的评分机制不仅考虑了页面的相关性，还可能涉及权威性、链接结构等多种因素。 - **Searcher（搜索器）**：提供用户界面，接受用户输入的查询请求，并从索引库中检索相关信息，返回最匹配的结果列表。 #### ...

nutch-1.5.1源码: 6. **配置与插件（Configuration & Plugins）**：Nutch允许开发者通过配置文件定制爬虫的行为，并提供了一套插件系统，方便扩展其功能。例如，你可以编写自定义的URL过滤器、解析器或索引增强插件。在研究Nutch-...

分享一个Nutch入门学习的资料: 通过阅读源码，学习者可以了解Nutch如何实现URL的发现、页面下载、解析、分词、索引等关键功能。此外，源码分析还能帮助学习者定制Nutch以满足特定的抓取需求。 “工具”标签则暗示这份资料可能包含了一些辅助工具...

nutch入门教程: 这涉及到配置Nutch的抓取策略，如定义起始URL，设置抓取深度，以及配置过滤规则避免抓取不必要的页面。 **3.2 爬行全网** 随着对Nutch掌握程度的加深，可以尝试全网抓取。这要求对Nutch的数据集和抓取策略有更深入...

nutch-2.1源代码: Nutch不仅仅是一个搜索引擎，它还包含了一个Web爬虫，能够抓取互联网上的网页，并对抓取的数据进行索引和处理。 Nutch的源代码包含了整个项目的完整实现，包括爬虫、索引器、搜索器以及相关的配置和文档。这对于...

Global site tag (gtag.js) - Google Analytics