nutch研究记录2（搜索器配置） - biaowen - ITeye博客

`

biaowen

浏览: 74905 次
性别:
来自: 北京

最近访客更多访客>>

lirn0896

civiC

秦风sa

hbysos

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

虾米小兵：这个脚本我没看到新产生的索引与原来的索引进行比较并去重的过程。 ...
nutch研究记录3（增量爬行）
chenhong198986：写的挺好！
多多学习，天天进步！
小林信仁：呵呵，还不错。
windows系统 3389远程监控登录信息（记录IP）
jerry.chen：望加QQ:519582864 想详细向你请教,谢谢!
nutch主流程代码阅读心得。
comsci：非常不错的东西，通过这个文章，我们可以对搜索引擎的建立有更加深 ...
nutch主流程代码阅读心得。

nutch研究记录2（搜索器配置）

博客分类：

搜索引擎

Tomcat Web XML C C++

阅读更多

2.    搜索器配置。
    a)    将nutch-1.0.war部署到tomcat上，第一次部署tomcat会报错，没关系，因为还没进行配置，我们目的在于解压出nutch-1.0，呵呵。
    b)    打开搜索器目录(我们称为web nutch)，配置WEB-INF/classes/nutch-site.xml，

<property>
	    <name>searcher.dir</name>
	    <value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled</value>
</property>

c) 现在启动web nutch应该就没问题了，不过搜索中文时候会出现乱码，可以修改tomcat/conf/server.xml来解决

<!--
    <Connector port="8080" protocol="HTTP/1.1" 
               connectionTimeout="20000" 
               redirectPort="8443" />
 -->
<Connector port="8080" 
     		maxThreads="150" 
     		minSpareThreads="25" 
     		maxSpareThreads="75" 
     		enableLookups="false" 
     		redirectPort="8443" 
     		acceptCount="100" 
     		debug="0" 
     		connectionTimeout="20000" 
     		disableUploadTimeout="true" 
     		URIEncoding="UTF-8" 
     		useBodyEncodingForURI="true" />

这里需要提醒一下，如果同一机器上同时运行搜索器和爬虫时候，当爬虫抓取数据保存到索引时候会抛出异常，因为有些索引文件被搜索器锁定，所以操作不了，导致异常！

分享到：

nutch研究记录3（增量爬行） | nutch研究记录1（爬虫配置）

2009-07-06 00:18
浏览 1344
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch工具包: 通过研究这个Nutch工具包，开发者可以了解到Nutch的架构设计，如何配置和运行爬虫，以及如何处理抓取的数据。这对于开发自己的网络爬虫系统或者在现有基础上进行定制化开发非常有帮助。同时，Nutch的源代码也可以...

nutch网页爬取总结: - **配置 Nutch 查询索引**：配置 Nutch 的 `conf/gora.properties` 和 `conf/hadoop-site.xml` 文件，以便连接到 Hadoop 集群（如果需要的话），并指定索引的存储位置。 **Nutch 爬取内容解析** 1. **Crawldb**...

Nutch全文搜索学习笔记: Searcher（搜索器）** - **BasicSummarizer**：实现搜索结果摘要功能。通过以上步骤，我们可以成功安装并配置Nutch，实现网页抓取、内容解析、索引创建及全文检索等功能。此外，针对中文支持进行了特别配置，以...

Nutch简要文档: 此外，Nutch 的配置文件如 `nutch-site.xml` 是至关重要的，它定义了 Nutch 的各种参数，如抓取策略、解析器设置等，根据实际需求调整这些配置可以优化爬虫性能。总的来说，Nutch 是一个强大的Web抓取和索引工具，...

lucene+nutch搜索引擎（12章源码）: 6. 搜索器（Searcher）：根据查询和索引进行匹配，返回相关性最高的文档。二、Nutch：构建大规模搜索引擎的框架 Nutch是基于Lucene构建的开源网络爬虫项目，用于抓取、索引和搜索Web内容。Nutch的关键特性包括： ...

nutch1.6压缩代码: Nutch 1.6 是一个开源的网络爬虫项目，由Apache软件基金会开发，用于抓取互联网上的网页并建立索引。...对于想要从事数据分析、搜索引擎优化或网络监控的人来说，Nutch 1.6 是一个值得深入研究的开源项目。

nutch-1.3源码: 通过深入研究 Nutch-1.3 的源码，不仅可以掌握网络爬虫的基本原理和技术，还能提升在 Java、Hadoop 和搜索引擎领域的专业技能。这对于从事大数据处理、搜索引擎开发或者网络信息挖掘的开发者来说，具有极高的学习...

Nutch源码研究: Nutch 的源码研究对于理解搜索引擎的工作原理和网页抓取技术非常有帮助。通过深入分析源码，开发者可以自定义抓取策略、优化性能，甚至开发新的协议插件以支持更多数据源。同时，Nutch 的设计思路也可以为其他分布式...

nutch入门经典翻译1：Introduction to Nutch, Part 1: Crawling: - **模块化设计**：Nutch的爬虫和搜索器相互独立，可以灵活配置和扩展，适应不同规模的需求。 - **可扩展性**：允许爬虫和搜索器部署在不同平台，满足从小规模网站到大规模互联网搜索的不同需求。 - **开放性**：...

nutch1.5-官方包: - **CHANGES.txt**：记录了Nutch 1.5版本的更新和改进，有助于了解新特性或修复的问题。 - **README.txt**：提供项目的简要介绍和安装、运行指南。 - **NOTICE.txt**：列出项目中使用的第三方软件及版权信息。 -...

apache nutch 2.2 linux: Apache Nutch 是一个开源的网络爬虫项目，用于抓取互联网上的网页并建立索引，以便于搜索引擎或者其他信息检索系统使用。Nutch 2.2 版本是该项目的一个稳定版本，尤其适合在 Linux 系统上运行。下面将详细阐述 ...

学习lucene和nutch爬虫代码: 2. **分词器（Analyzer）**：Lucene使用分词器将输入文本分解为可搜索的词项。分词器的选择对搜索效果至关重要，不同的语言和应用场景需要使用不同的分词策略。 3. **文档（Document）**：在Lucene中，文档是被索引...

毕业论文-nutch爬虫系统分析.doc: Nutch 是一个开源的Web爬虫系统，专为大规模网络数据收集而设计，它被广泛应用于搜索引擎、学术研究以及大数据分析等领域。这篇毕业论文详细分析了Nutch爬虫系统的各个方面，旨在深入理解其工作原理和架构。 1. ...

基于Nutch的Web网站定向: 2. **抓取配置的集中管理**：对抓取过程中的各种参数进行统一设置，方便后期的维护与扩展。 3. **基于子任务的抓取管理**：将整个抓取任务拆分为多个子任务，每个子任务独立运行，最后再将结果合并，提高了系统的...

nutch2.2.1和Mysql 环境的搭建。。。。可以爬下url.但是不知道为什么还有很多空的值在数据库中，还有待.zip: Nutch 2.2.1 是一个开源的网络爬虫项目，它被广泛用于构建大规模的搜索引擎和数据抓取系统。MySQL 是一个流行的开源关系型数据库管理系统，常用于存储和管理 Nutch 抓取的数据。当您在设置 Nutch 与 MySQL 的环境时...

java写的搜索引擎网络爬虫源码: Java编写的搜索引擎网络爬虫是一种用于自动...这个Java编写的搜索引擎网络爬虫源码，不仅提供了实现爬虫的基础框架，还包含了处理动态内容、配置灵活性和扩展性等方面的设计，对于学习和开发网络爬虫是一个宝贵的资源。

luke-src-0.9.9: 《Luke：洞察Nutch索引的秘密武器》在信息技术领域，搜索引擎优化（SEO）和信息检索...通过深入研究Luke的源代码和配置文件，开发者能够更深入地掌握信息检索技术，从而提升其在信息管理和搜索引擎开发中的专业技能。

开发自己的搜索引擎lucene+heritrix（第2版）（heritrixProject源码）: 在IT领域，构建一个自定义的搜索引擎是一项技术挑战，但也是探索信息检索和大数据处理的有趣...同时，这个项目也为研究和改进现有搜索引擎提供了基础，比如针对特定领域的定制化搜索，或者提高搜索的准确性和召回率。

Heritrix—开发自己的搜索引擎: 2. **可配置性**：Heritrix的一大特点在于其高度的可配置性。用户可以通过XML配置文件定义爬取策略，比如设置起始URL、抓取深度、排除特定域名等。此外，还可以自定义处理模块，如解析器、过滤器和存储器，以适应...

Global site tag (gtag.js) - Google Analytics