- 浏览: 1185407 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
http://issues.apache.org/jira/browse/NUTCH-36
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html
以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。
由Jack Tang于04-Apr-2005提出,是描述在Nutch搜索中加入中文支持的技术。
因为刚刚提出,没有成熟,需要探索才能使用,有点挑战!希望早日搞定!
Nutch JavaDoc Overview (Nutch 0.6 API)
Nutch的Java代码文档。
http://incubator.apache.org/nutch/apidocs/
Nutch Mailing Lists
Nutch的邮件列表。
http://incubator.apache.org/nutch/mailing_lists.html
Nutch - Tutorial
Nutch的教程。(入门必读!)
http://incubator.apache.org/nutch/tutorial.html
Nutch Wiki - Dissecting The Nutch Crawler
Nutch维基:分解Nutch爬虫。(有相当详尽的资料,值得研读!)
http://wiki.apache.org/nutch/DissectingTheNutchCrawler
Nutch Wiki - Distributed Web DB
Nutch维基:分布式网页数据库。
http://wiki.apache.org/nutch/DistributedWebDB
Nutch Wiki - Front Page
Nutch维基:入口。
http://wiki.apache.org/nutch/FrontPage
Nutch Wiki - Nutch Distributed File System
Nutch维基:Nutch分布式文件系统。
http://wiki.apache.org/nutch/NutchDistributedFileSystem
Nutch Wiki - Nutch File Formats
Nutch维基:Nutch文件格式。
http://wiki.apache.org/nutch/NutchFileFormats
Nutch Wiki - Web DB
Nutch维基:Nutch文件系统。(旧的版本!)
Nutch Wiki - Why Nutch Has A Plugin System
Nutch维基:讲述Nutch的插件系统,可惜不全。
http://wiki.apache.org/nutch/WhyNutchHasAPluginSystem
┌─────────────────────────
│Nutch相关的资料 - Online (05年06月08日开始收集)
└─────────────────────────
Nutch Documentation
This is not the offical nutch wiki, but some private collected documentation!!!
By Stefan Groschupf.
http://wiki.media-style.com/display/nutchDocu/Home
未知都是已知的 - Fenng's BLOG Nutch 初体验之一
什么是 Nutch ? Nutch 和 Larbin / Lucene 相比较有什么不同? 测试笔记。
http://www.dbanotes.net/archives/2005/01/nutch_aee.html
未知都是已知的 - Fenng's BLOG Nutch 初体验之二
介绍一下 Nutch 进行全网的爬行(Whole-web Crawling) 的操作测试过程以及注意事项。
http://www.dbanotes.net/archives/2005/01/nutch_aeeaeae.html
竹笋炒肉 - 试用Nutch
是作者对nutch的一些试用记录。作者认为,搭建网站时实现本站检索的最好的方案,是采用车东基于lucene的开源项目web lucene的软件包。而nutch似乎比较适合于建立垂直搜索引擎网站。
http://hedong.3322.org/archives/000247.html
Nutch - A Flexible and Scalable Open-Source Web Search Engine
(PDF File,是一篇Doug Cutting参与的描述Nutch的论文。)
http://labs.commerce.net/wiki/images/0/06/CN-TR-04-04.pdf
Nutch - Open Source Web Search Software
(PDF File,是一篇Doug Cutting的introduce Nutch的power point file。)
http://nutch.sourceforge.net/twiki/Main/Presentations/pisa2.pdf
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
关于“International Parser”,Doug Cutting replied to this thread.
http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03641.html
http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
关于Myanmar language analyzer。
http://www.opensubscriber.com/message/nutch-developers@lists.sourceforge.net/1436319.html
SatireWire Vearch - Vertical Search Engines
Known as "vearch" engines, these new players provide unprecedented speed and relevancy by cataloging a narrow selection of sites...
http://www.satirewire.com/news/0006/satire-vearch.shtml
发表评论
-
nutch-1.2结合hadoop分布式搜索
2011-07-13 10:50 2665nutch-1.2结合hadoop分布式搜索。 1、网上关于 ... -
nutch-1.x分布式索引指定
2011-07-04 17:15 12801、nutch-1.x中在crawl.java中。最后有这么一 ... -
在nuthc中加入中文分词
2011-05-15 11:41 606nutch实用的分词是默认的,对中文支持的不是很好。 网上有 ... -
nutch1.2中加入中文分词以及搜索错误解决
2011-03-02 12:15 1435在nutch当中加入中文分词。这里我使用的IK_Analyze ... -
使用ant编译时错误:Specify at least one source--a file or resource
2011-02-22 11:12 2462将命令环境切换到Nutch目录下,执行ant命令。出现如下错误 ... -
readdb导致fetch job中断的问题
2011-02-16 13:39 1660Nutch readdb命令可以用来统计目前crawldb库里 ... -
Nutch fetch job中时间的分配比例
2011-02-16 13:38 1336下面是nutch fetch job中map shuffle ... -
nutch UI 多台机子部署有关jetty配置servlet的问题
2010-01-18 17:35 2469我们jetty是一个小型的web服务器,可以嵌入到程序当中去, ... -
nutch中plugin.folders的配置
2009-12-21 18:07 2426今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录 ... -
把另外的一个项目加入了nutch中来
2009-12-20 23:59 1093周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下, ... -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
2009-12-17 10:29 1664接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如 ... -
nutch plugin详细分析
2009-12-16 18:06 1394当某个插件需要被加载时, Nutch 会加载所有插件的相关接口 ... -
nutch plugin的流程以及如何自定义plugin
2009-12-16 18:04 1995PluginRepository 是plugin的入口,保存了 ... -
如何读取nutch抓取数据
2009-12-16 17:43 3608如何读取nutch抓取数据 1.首先nutch的配置已经在博 ... -
Nutch1.0 Ui启动在tomcat中的配置
2009-12-07 14:09 1355<!-- @pa ... -
nutch如何才能抓取到动态的url
2009-11-25 15:27 5352http://www.tianya.cn/new/Tianya ... -
配置完成nutch容易出现的错误
2009-11-25 11:50 24841.1.2 运行crawl报错Job failed Ex ... -
在eclipse中如何配置nutch1.0
2009-11-25 11:44 1434<1>: 首先从http://apache.eto ... -
nutch的基本工作流程理解
2009-11-21 00:17 1900(一):Nutch的工作流程: Crawdb、l ... -
cygwin配置说明
2009-11-21 00:15 2363开始,一步一步来:了解Cygwin的人都知道,就是到 : ht ...
相关推荐
这个开发资料压缩包包含了与Nutch相关的源代码和可能的配置文件,可以帮助开发者深入了解和学习Nutch的工作原理以及如何进行定制化开发。以下是对Nutch及其相关知识点的详细介绍: 1. **Nutch介绍**:Nutch是一个...
### Nutch入门资料知识点概述 #### 一、Nutch简介及安装配置 - **Nutch**: 开源网络爬虫项目,基于Apache Hadoop构建,能够抓取和索引大量网络数据,广泛应用于搜索引擎开发。 - **环境搭建**: - **配置中文API...
本资料包围绕Nutch爬虫,提供了相关的参考书籍和源代码分析,旨在帮助用户深入理解Nutch的工作原理和实践应用。 首先,Nutch爬虫的基础知识包括它的架构和工作流程。Nutch分为多个阶段,包括种子URL的生成、网页...
标签“源码”意味着这个学习资料可能涉及Nutch的源代码分析,这对于深入理解Nutch的工作原理至关重要。通过阅读源码,学习者可以了解Nutch如何实现URL的发现、页面下载、解析、分词、索引等关键功能。此外,源码分析...
其中内容均为前段时间研究开源搜索引擎时搜集参考的资料,非常齐全包含的内容有: Computing PageRank Using Hadoop.ppt Google的秘密PageRank彻底解说中文版.doc JAVA_Lucene_in_Action教程完整版.doc Java开源搜索...
5. **参考资料** - 官方文档:Apache Nutch官网提供了详细的使用指南和API文档。 - 社区资源:参与Nutch的邮件列表、论坛讨论,获取最新的开发动态和问题解答。 - 开源教程:网上有许多开源的Nutch学习教程和视频...
自己找的一些nutch的相关资料,还有自己配置的简单过程的记录。
《Lucene+Nutch:搜索引擎开发深度解析》一书的源码及详细说明是搜索引擎开发者和爱好者的重要参考资料。这本书深入探讨了如何使用Apache Lucene和Nutch构建一个完整的搜索引擎系统,涵盖了从网页抓取到索引建立,再...
Nutch是一个基于Java的开源搜索引擎项目,其设计目标是提供一套高效、可扩展的网络爬虫和全文检索框架。这个项目对于那些希望自建搜索引擎或者对搜索引擎技术有研究需求的人来说,是一个宝贵的资源。 Nutch的核心...
2. **《nutch入门学习.pdf》**:这可能是更深入的学习资料,可能包含实战案例和高级特性的讲解,帮助进阶者理解Nutch的内在工作机制。 **五、实践操作** 学习Nutch通常包括以下步骤: 1. **环境准备**:安装Java...
《Lucene+Nutch:构建全网搜索引擎的深度解析》 Lucene和Nutch是两个在信息检索领域广泛应用的开源项目,它们共同构成了强大的全文搜索引擎框架。Lucene是Java实现的高性能、可扩展的信息检索库,提供了索引和搜索...
- **标题与描述**: 本资料“nutch+lucene开发自己的搜索引擎ch3.pdf”聚焦于介绍如何使用Nutch和Lucene来构建自己的搜索引擎,特别强调了第三章:开源搜索引擎入门。 - **标签与内容**: 标签为“Nutch”,表明主要...
- 企业内部信息检索:在企业内部搭建信息检索系统,方便员工查找资料。 - 竞品分析:抓取竞争对手网站的数据,分析市场动态。 总之,Nutch 1.5 提供了一个完整的框架,让用户能够轻松地实现网络数据的抓取和处理...
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。...这份手册对每个环节都做了详尽的解释,对于想要构建大规模网络爬虫系统的开发者来说,是一份非常宝贵的参考资料。
1. **技术资料**:CSDN 的数据包括大量的技术博客和论坛讨论,涵盖各种编程语言、框架、操作系统、数据库等,是学习和研究技术的好资源。 2. **社区动态**:分析这些数据可以了解技术社区的热点话题、流行趋势,对...
对于初学者来说,"学习lucene和nutch爬虫代码"这个资料包应该包含了Lucene的基本代码示例和Nutch的爬虫代码。通过阅读和理解这些代码,你可以深入了解Lucene如何建立索引、执行搜索,以及Nutch如何抓取和处理网页。...
在Windows环境下配置Apache Nutch是一项复杂但至关重要的任务,它涉及到搜索引擎的基础构建,特别是对于那些需要自建数据抓取和索引...提供的文档资料将作为配置过程中宝贵的参考资料,帮助你更好地理解和操作Nutch。
这个文件可能提供了关于 Nutch v2.4 的安装指南、配置步骤或使用示例,对于初学者来说是宝贵的参考资料。 5. **毕业设计论文**: 学生可以用 Apache Nutch v2.4 作为毕业设计的基础,研究网络爬虫的实现、性能...