`
crazier9527
  • 浏览: 1011392 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Lucene Nutch 入门简明教程总结(转载 收藏)

阅读更多

原文地址:http://cid-47027e68f36cbaf5.spaces.live.com/blog/cns!47027E68F36CBAF5!443.entry

先声明,是个菜鸟的总结。总结的是一件很菜鸟的事情。

事情的起因是1月2号,在实验室,黄黄的书架上看到一本书《Lucene in action》。觉得有意思,拿过来一看。又见Nutch是基于Lucene的一个开源搜索引擎,很受欢迎,决心试一试。

先列出主要参考文献

Nutch入门教程,某北邮人写的。下载地址

download.csdn.net/source/619615

当然,想要从CSDN上下东东,先注册个账号再说。

然后基本就是套着上去就好了。

(另:Nutch_tutorial8.pdf 这个文件是 tutorial, ms也很好的样子,但是英文,我有严重的阅读障碍,所以,未涉足)

中间涉及的一些问题

cygwin的安装,就是下载那个setup.exe文件,然后先下载到local directory,下完后再从local directory装。我装在D:\cygwin目录下。

Java我是以前就已经装好了的。所以设置一下就好了。path,classpath,java_home等一定要设置好。。。否则问题会很烦人,啥classLoader的。。。验证的方法基本是在命令行输入 java 或 javac,看看有没有错误提示。有一个问题我也不明白是它会提示找不tools.jar,但实际上是在jre\lib里面,将其拷到jdk\lib里面就好了。

接下来跑nutch,第一步是抓页面。照着教程一步一步弄就好了

crawl-urlfilter.txt 注意黑体部分。

# The url filter file used by the crawl command.

# Better for intranet crawling.
# Be sure to change MY.DOMAIN.NAME to your domain name.

# Each non-comment, non-blank line contains a regular expression
# prefixed by '+' or '-'.  The first matching pattern in the file
# determines whether a URL is included or ignored.  If no pattern
# matches, the URL is ignored.

# skip file:, ftp:, & mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/.+?)/.*?\1/.*?\1/

# accept hosts in MY.DOMAIN.NAME
+^
http://([a-z0-9]*\.)*163.com/

# skip everything else
-.

nutch下面的nutch-site.xml就不用多说了,要注意<value>一定要有值

然后抓取过程是trival的,盯着crawl.log看看都抓了些啥东东就好了。

出现的一个问题是No URLs to fetch。然后就啥也不做退出来了,令我很不爽。后来不知道怎么又能work了。ms设置能以下后才OK的。

# accept hosts in MY.DOMAIN.NAME
+^
http://([a-z0-9]*\.)*163.com/

要在Tomcat上跑。我是如黑体部分设置Tomcat下面的nutch-site.xml的,另外nutch-default.xml 里面的searcher.dir好像ms也要改的说,偶改成一样了。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration> 
  <property>   
    <name>searcher.dir</name>   
    <value>D:/cygwin/nutch/crawldemo</value>
   
</property>  
</configuration>

注意:我犯了致命的一个错误是在D:/cygwin/nutch/crawldemo 里面带了空格,所以死活搜不到东东,折腾死了。希望不再有人同样死去活来。

最后,安慰一下自己,就是这么一东东,基本上整了偶三天。太眼了。

image

一些链接(对菜鸟来说,都很不错哟):

Linux下安装Lucene(详细)
http://blog.c1gstudio.com/archives/142

Windows下Nutch的安装过程
http://read.newbooks.com.cn/info/196850.html

在Eclipse下编译运行nutch
http://zhangxiang390.iteye.com/blog/257373

Nutch-0.9源代码:Crawl类整体分析
http://hi.baidu.com/shirdrn/blog/item/b7de0813a865a8d6f7039e18.html

Nutch跑起来一些细细的事项
http://blog.csdn.net/fancyhf/archive/2007/08/29/1763629.aspx

Nutch中添加中文分词的方法
http://www.chinawiss.com/docs/docs/14/1194.html

Nutch项目配置1(内部网搜索)
http://wind-bell.iteye.com/blog/80135

 

分享到:
评论

相关推荐

    基于lucene和nutch的开源搜索引擎资料集合

    nutch入门.pdf nutch入门学习.pdf Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究.pdf [硕士论文]_基于Nutch...

    \Lucene Nutch和安装说明文旦

    标题中的“Lucene Nutch和安装说明文档”暗示了我们要讨论的是一个关于Apache Lucene和Nutch的安装过程。Lucene是一个全文搜索引擎库,它提供了核心的搜索功能,而Nutch则是一个基于Lucene的开源网络爬虫项目,用于...

    Lucene.Nutch搜索引擎开发

    学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    Lucene nutch 搜索引擎 开发 实例 源码

    《Lucene与Nutch搜索引擎开发实例详解》 在信息技术领域,搜索引擎已经成为不可或缺的一部分,它们能够高效地处理海量数据,帮助用户快速找到所需信息。本文将深入探讨基于Java的开源搜索引擎框架——Lucene和Nutch...

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

    nutch入门实例教程.pdf

    ### Nutch 入门实例教程知识点总结 #### 1. Nutch 简介 - **定义**: Nutch 是一个开源的 Java 实现的搜索引擎框架,它提供了构建和运行自己搜索引擎所需的所有工具。 - **研究动机**: - **透明度**: 作为开源...

    lucene nutch 搜索引擎 开发 实例 源代码 源码

    lucene nutch 搜索引擎 开发 实例 源代码 源码 包含lucene使用的所有源代码,从建立索引,搜索,删除,排序,都有,非常齐全 还有PDF 解析,WORD解析 ,EXCEL,ppt,xml解析等,,都有源码实现 还有nutch源码,spider...

    Lucene+nutch搜索引擎开发 源代码

    《Lucene+nutch搜索引擎开发》书附带的源代码

    Lucene+nutch搜索引擎开发(全本2-2)

    Lucene+nutch搜索引擎开发(全本2-2),本电子书共两部分

    Lucene+Nutch搜索引擎开发.王学松源代码

    总的来说,王学松的“Lucene+Nutch搜索引擎开发实例代码”是一份宝贵的教育资源,它可以帮助开发者快速入门搜索引擎开发,并深入了解这两个项目的内部工作机制。通过实践这些代码,不仅可以提升技术能力,还能为构建...

    Nutch入门教程.pdf

    以上内容构成了Nutch入门教程的核心知识点,从简介、安装配置、初体验、基本原理、分析方法、分布式文件系统以及应用等多方面,详细介绍了Nutch框架及其使用方法,为对搜索引擎感兴趣的用户提供了一个全面的学习资源...

    lucene.net 完全入门教程

    lucene.net 完全入门教程,包括 lucene.net 介绍, lucene.net工作模式, lucene.net分词方法和中文分词方法, lucene.net索引的建立详解, lucene.net搜索详解, lucene.net的下载方法, lucene.net搜索结果实现...

    lucene3.6入门实例教程

    《Lucene 3.6 入门实例教程》是一份专为初学者设计的指南,旨在帮助用户快速掌握Apache Lucene 3.6版本的基本概念和应用。Lucene是一个高性能、全文检索库,广泛用于构建搜索功能强大的应用程序。这份教程通过完整的...

    nutch入门教程

    ### Nutch入门教程知识点解析 #### 1. Nutch简介 **1.1 什么是Nutch** Nutch是一个开源的搜索引擎框架,完全基于Java开发,旨在帮助用户构建和运行自己的搜索引擎。它提供了一系列的工具和服务,使用户能够从...

    lucene.net+完全入门教程

    通过学习这个“lucene.net+完全入门教程”,开发者可以了解如何在.NET环境中设置Lucene.Net项目,创建和管理索引,编写查询,优化搜索性能,并掌握如何处理搜索结果。教程可能涵盖从安装步骤、基本概念介绍,到实战...

    Lucene+nutch搜索引擎开发(全本2-1)

    Lucene+nutch搜索引擎开发(全本2-1),本电子书共两部分

    Lucene+Nutch本书源码+详细说明

    《Lucene+Nutch:搜索引擎开发深度解析》一书的源码及详细说明是搜索引擎开发者和爱好者的重要参考资料。这本书深入探讨了如何使用Apache Lucene和Nutch构建一个完整的搜索引擎系统,涵盖了从网页抓取到索引建立,再...

Global site tag (gtag.js) - Google Analytics