`
ywy041102
  • 浏览: 8298 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

一个不错的nutch使用文档

阅读更多
一个不错的nutch使用文档2007-10-26 10:19基本上把思路理清了
一、安装nutch和配置tomcat,注意nutch0.7和0.8的区别,在这里以0.7版本为例
二、抓取网页,建立搜索
   1、假设当前目录为nutch目录,建立一个urls文件,内容就是要抓取的网站域名,如http://www.mydomain.com,可以有多个,每行写一个。在试验中发现,只有根域名有时候抓取的内容没有或很少,加入更多的详细URL效果很好,比如http: //www.mydomain.com/users,http://forum.mydomain.com/post/123,http://www.mydomain.com/articles/123 等,越详细越全面越好,我理解是不是这样的话在crawl的时候,depth的值就可以设小一些了。
   2、修改conf/crawl-urlfilter.txt,加入过滤URL的规则
   3、开始抓取:
#bin/nutch crawl urls -dir crawl.mydomain -depth 10
   4、运行Tomcat前的准备,拷贝war文件,参见《nutch研究(二)》
   5、到这里基本的搜索就可以用了
三、 索引的更新和维护
   1、写一个维护脚本,定时运行,是个好办法

   #!/bin/bash

   # Set JAVA_HOME to reflect your systems java configuration
   export JAVA_HOME=/usr/lib/j2sdk1.5-sun 

   # Start index updation,只查找最热门的前1000条记录,由此创建新的segment
   bin/nutch generate crawl.mydomain/db crawl.mydomain/segments -topN 1000
#得到最新的segment目录名
   s=`ls -d crawl.virtusa/segments/2* | tail -1`
   echo Segment is $s
   bin/nutch fetch $s
   bin/nutch updatedb crawl.mydomain /db $s
   bin/nutch analyze crawl.mydomain /db 5
   bin/nutch index $s
#删除重复记录
   bin/nutch dedup crawl.mydomain /segments crawl.mydomain/tmpfile

   # Merge segments to prevent too many open files exception in Lucene
   #合并成一个新的segment
   bin/nutch mergesegs -dir crawl.mydomain/segments -i -ds
   s=`ls -d crawl.mydomain/segments/2* | tail -1`
   echo Merged Segment is $s

   rm -rf crawl.mydomain/index
   2、以上是在urls文件内容没有变化的时候采用的办法,如果我加入的新的URL在urls文件里,那么在运行generate以前,要执行下面一命令:
#bin/nutch inject crawl.mydomain/db -urlfile urls
在generate的时候,如果不加topN参数,那么crawl只会去处理新加的或原来由于其它原因没有fetch的url或page,所以我感觉,脚本1和用2修改的脚本交替运行,会有很好的效果。


分享到:
评论

相关推荐

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    在这篇学习笔记中,我们将探讨如何结合使用Lucene 2.4和Nutch来在多个文本文档中查找包含特定关键词的文档。 首先,了解Lucene的基础知识至关重要。Lucene的核心概念包括文档(Document)、字段(Field)、索引...

    nutch2.3.1安装文档教程

    - 使用命令 `tar -zxvf apache-nutch-2.3.1-src.tar.gz` 解压缩文件。 2. **配置 Ivy 依赖管理器**: - 修改 `/root/test/apache-nutch-2.3.1/ivy/ivy.xml` 文件,添加依赖: ```xml *->default"/> *->default...

    分享一个Nutch入门学习的资料

    Nutch是大数据处理框架Hadoop的一个重要组成部分,它使用Hadoop进行分布式数据存储和处理。Nutch的学习对于理解Web抓取、搜索引擎原理以及Hadoop生态系统有极大的帮助。 在描述中提到的“博文链接:...

    nutch工具包

    11. **ivy** 文件夹或文件:Ivy是一个依赖管理工具,Nutch使用它来管理和解决项目依赖,使得构建过程更加简单。 通过研究这个Nutch工具包,开发者可以了解到Nutch的架构设计,如何配置和运行爬虫,以及如何处理抓取...

    搭建nutch开发环境步骤

    Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。它提供了一个可扩展的、高度模块化的框架,用于抓取、解析网页,并建立索引,是大数据和信息检索领域的重要工具。下面,我们将详细讲解如何搭建...

    开发基于 Nutch 的集群式搜索引擎

    Nutch是一款开源搜索引擎,使用Java语言编写,并且依赖于Lucene这一高性能全文搜索引擎库。自Nutch 0.8.0版本起,它完全运行在Hadoop平台上,这使Nutch能够利用Hadoop的分布式文件系统(HDFS)以及MapReduce编程模型...

    VBA合并多个word文档到一个文档中

    利用VBA合并多个word文档到一个文档中,操作说明在文档中

    如何将一个word文档按页分割成多个word文档

    本文将介绍如何使用 VBA 编辑器来实现将一个 Word 文档按页分割成多个 Word 文档。 Step 1: 打开需要分割的文档 首先,打开需要分割的 Word 文档,假设它的文件名叫做“原始文档.doc”。 Step 2: 打开 VBA 编辑器...

    分布式搜索引擎nutch开发

    Nutch有一个活跃的开发者社区,提供了详细的文档、教程和示例代码,帮助用户快速入门并解决问题。Apache官方网站上的Nutch项目页面是获取最新资讯和资源的主要渠道。 总之,Nutch是一个强大的分布式搜索引擎开发...

    解决Nutch摘要问题

    Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。然而,这可能会导致生成的摘要过于关注关键词,而忽视了语义连贯性。因此,我们可能会遇到摘要质量不高的问题...

    apache-nutch的源码

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 源码的分析和理解对于想要深入研究搜索引擎工作原理、网页抓取技术和大数据处理的开发者来说...

    Jedis API中文使用文档.-比较详细

    * 设置值:使用 `set` 方法可以设置一个值,例如 `jedis.set("name", "minxr");` 将把 "minxr" 设置为 "name" 的值。 * 获取值:使用 `get` 方法可以获取一个值,例如 `jedis.get("name");` 将获取 "name" 的值。 * ...

    Itext中文使用说明+英文官方API文档

    Itext是一个强大的PDF处理工具,中文使用说明和API文档是其学习的重要资源。掌握Itext可以帮助开发者高效地生成和处理PDF文档,提升项目开发效率。无论是初学者还是经验丰富的开发者,都应该充分利用这些资源,深入...

    Lucene nutch 搜索引擎 开发 实例 源码

    Lucene是一个全文检索库,它提供了一个简单的API,开发者可以使用这些API来构建自己的搜索功能。Lucene的核心功能包括文档索引、查询解析、评分和结果排序。在Lucene中,索引是关键,它将非结构化的文本数据转换为...

    Lucene+Nutch搜索引擎开发

    通过以上步骤,我们不仅了解了Lucene和Nutch的基本概念及其核心功能,还深入探讨了如何将这两个工具结合使用来构建一个完整的搜索引擎。当然,在实际应用中还需要考虑更多的因素,比如系统的稳定性、安全性等问题。...

    postman最全中文图解使用文档

    postman最全中文图解使用文档,postman最全中文图解使用文档,postman最全中文图解使用文档,postman最全中文图解使用文档,

    nutch10配置(解决代理问题)

    - 如果在Windows环境下使用Nutch,文档中提到的安装Cygwin并将`F:\cygwin\bin`添加到系统环境变量中,是为了确保Nutch能够在Windows平台上正常运行。Cygwin提供了一系列类似于Linux的工具,这对于Nutch在Windows...

    Nutch相关框架视频教程 (1-20)(PDF)

    1. **Nutch的衍生项目**:Nutch不仅仅是一个独立的项目,它的研究和发展过程中孕育出了多个重要的开源项目,包括Hadoop、Tika和Gora。这表明Nutch在大数据处理和搜索引擎技术领域具有深远的影响。 - **Hadoop**:...

    VBA 合并多个word文档到同一个新文档中

    利用VBA语言将同一文件夹中的多个Word文档合并到一个新的Word中,使用简单快捷。

    Eclipse中编译Nutch-0.9

    - **创建Java Project**:在Eclipse中创建一个新的Java Project,命名为"Nutch",并选择“Create project from existing source”,指向解压后的Nutch-0.9目录。 #### 解决编译错误与外部库集成 - **识别编译错误*...

Global site tag (gtag.js) - Google Analytics