`
gstarwd
  • 浏览: 1538230 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

nutch抓取下来,但搜索不到结果的解决方案

阅读更多

nutch建立索引成功,通过lucene直接搜索索引文件可以搜索到相关结果,但是通过nutch搜索不到结果

解决方案:

<property>
<name>searcher.dir</name>
<value>crawl</value>
</property>

在nutch-default.xml中配置searcher.dir的默认路径为crawl,nutch会到crawl这个路径里面搜索,而你的索引文件跟本不在这个目录下面,所有搜索不到结果.

你可以在nutch-site.xml中加入searcher.dir这个属性的配置,value为nutch的索引文件的上一级目录.

比如:
我的索引文件为F:/cygwin/home/nutch-1.0/crawled/index,
配置为F:/cygwin/home/nutch-1.0/crawled
(注:我使用相对路径时也没搜到结果,后用绝对路径后可以了,推荐先用一下绝对路径。)
然后从nutch-default.xml中把包括名为search.dir的属性复制到
nutch-site.xml,修改<value></value>之间的内容,如下:
<property>
<name>searcher.dir</name>
<value>F:/cygwin/home/nutch-1.0/crawled</value>
<description>
Path to root of crawl. This directory is searched (in
order) for either the file search-servers.txt, containing a list of
distributed search servers, or the directory "index" containing
merged indexes, or the directory "segments" containing segment
indexes.
</description>
</property>


好,切入正题:
首先保证你说的抓取是正确的抓取,那样会在抓取目录下生成五个目录,分别是crawldb,index,indexes,linkdb,segments。

注:有两个地方存在nutch-site.xml文件,因为不了解,所以我把两个nutch-site.xml文件都作了修改。分别为~/nutch- 1.0conf/nutch-site.xml和~tomcat/webapps/ROOT/WEB-INF/classes/nutch- site.xml

摘自我在sogou上的回答。

分享到:
评论
1 楼 matraxa 2010-11-04  
nutch建立索引成功,通过lucene直接搜索索引文件可以搜索到相关结果 .
请问下这么用lucene直接搜索索引文件啊?我想通过编程实现但不知道字段名等信息。搜索不到啊。请指教下。谢谢了。

相关推荐

    Nutch公开课从搜索引擎到网络爬虫

    从Nutch的设计初衷来看,它旨在提供一个开源解决方案,帮助人们构建搜索引擎,这些搜索引擎可以从小规模扩展到覆盖成百上千台服务器的大型系统。Nutch的设计目标包括能够并行运行在成千上万台服务器上,每月抓取几十...

    解决Nutch摘要问题

    Nutch是一款开源的Web搜索引擎项目,它主要用于抓取和索引网页内容,是大数据和文本挖掘领域中的一个重要工具。在Nutch的工作流程中,摘要生成是一个关键环节,它有助于快速理解网页的主要内容,提高搜索结果的...

    apache-nutch

    2. **索引导入**:Nutch抓取的网页数据可以通过Solr索引导入工具导入到Solr,建立搜索引擎索引。 3. **查询处理**:Solr 支持丰富的查询语法,如布尔逻辑、短语匹配、模糊查询等。 4. **结果排序**:Solr 可以根据...

    nutch入门教程

    而Nutch不仅包含Lucene的索引能力,还集成了网页抓取、链接分析等更多功能,是一个全面的搜索引擎解决方案。 #### 2. Nutch的安装与配置 **2.1 JDK的安装与配置** Nutch依赖于Java环境,因此首先需要在服务器或...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...

    Nutch简要文档

    Nutch 是一个开源的 Web 搜索引擎项目,由 Java 编写,它提供了一种分布式爬虫解决方案,能够从互联网中抓取网页并进行索引,为数据分析和信息检索提供支持。Nutch 的设计目标是透明度和公正性,与商业搜索引擎相比...

    eclipse配置nutch,eclipse配置nutch

    确保所有必要的库都已经被正确地添加到项目的Classpath中,包括`conf`文件夹,以避免运行时的类找不到异常。 ### 结论 通过上述步骤,你可以在Eclipse中成功配置并运行Nutch,从而利用其强大的网络爬取和数据处理...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

    nutch-0.9 环境搭建所需最小cygwin

    6. **测试Nutch**:为了验证Nutch是否正常工作,你可以先让Nutch抓取一些简单的网页,然后使用Nutch生成的索引文件在本地Lucene搜索服务中搜索内容,查看是否能正确返回结果。 在实际操作中,可能会遇到一些问题,...

    Lucene+Nutch搜索引擎开发

    当我们将Lucene与Nutch结合起来使用时,可以构建出一个完整的搜索引擎解决方案。具体步骤如下: 1. **网页爬取**:使用Nutch进行网页爬取,根据配置策略抓取目标网站的数据。 2. **数据处理**:对爬取回来的数据...

    apache-nutch-1.4

    Nutch的目标是提供一个可扩展、高效的搜索解决方案,可以与Hadoop等大数据处理框架结合,处理海量的网页数据。 1. **Nutch 爬虫机制** - **种子URL**:爬虫的起点是一组种子URL,这些URL会被添加到待抓取的队列中...

    nutch初体验

    Nutch不仅仅是一个爬虫,它还包括了索引、搜索等多个环节,旨在实现完整的搜索引擎解决方案。 **二、Nutch的工作流程** Nutch的工作流程主要包括以下几个步骤: 1. **种子URL生成**:首先,你需要提供一组起始URL...

    Nutch环境搭建文档

    Nutch的核心价值在于提供了一个透明且公正的搜索解决方案,与商业化搜索引擎不同,Nutch不依赖于付费排名,而是致力于提供最相关的搜索结果。它允许用户自建搜索引擎,通过抓取和索引大量网页,实现高速搜索和高质量...

    nutch部分网页乱码BUG修正

    Nutch是Apache开发的一款开源网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行数据处理。然而,在实际使用过程中,由于编码问题,Nutch可能会出现部分网页乱码的情况。本篇文章将深入探讨这个...

    开发自己的搜索引擎 lunenc nutch

    Lucene 是一个全文搜索引擎库,而 Nutch 是一个完整的网络爬虫项目,两者结合可以提供从网页抓取到索引、搜索的一站式解决方案。 在开发自定义搜索引擎的过程中,首先我们需要了解 **Lucene** 的基本原理。Lucene ...

    Lucenechapter11.rar_nutch

    总结来说,Nutch是一个功能强大的搜索引擎框架,它结合了Lucene的强大索引能力,提供了一套完整的从网页抓取到搜索结果返回的解决方案。通过对Nutch的学习,我们可以深入理解搜索引擎的工作原理,这对于开发和优化...

    nutch+lucene开发自己的搜索引擎ch3.pdf

    - Nutch不同于Lucene,它提供了一个完整的搜索引擎解决方案,包括爬虫、索引构建、搜索等功能。 - 适用于希望快速构建搜索引擎的应用场景。 - 基于Java实现,易于集成和扩展。 #### 三、Lucene的关键特性 1. **...

Global site tag (gtag.js) - Google Analytics