Nutch配置全过程
安装各软件,并设置环境变量.
辅助软件1:cygwin的安装见上篇文章,cygwin基础入门,我安装在了e:\cygwin.安装后在桌面有个快截方式.
辅助软件2:jdk安装在C:\Program Files\Java\jdk1.5.0,所以环境变量设置成为JAVA_HOME=C:\Program Files\Java\jdk1.5.0
辅助软件3:tomcat安装在e:\tomcat 6.0
nutch不用安装,是个应用程序,下载后为nutch-0.9.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令:
$ cd D:/Downloads/Soft
$ tar zxvf nutch-1.0.tar.gz
在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令:
$cd D:/Downloads/Soft/nutch-1.0/bin
$sh nutch
出现下面的字样就是安装成功了.
Usage: nutch COMMAND
where COMMAND is one of:
crawl one-step crawler for intranets
admin database administration, including creation
inject inject new urls into the database
generate generate new segments to fetch
fetchlist print the fetchlist of a segment
fetch fetch a segment's pages
dump dump a segment's pages
index run the indexer on a segment's fetcher output
merge merge several segment indexes
dedup remove duplicates from a set of segment indexes
updatedb update database from a segment's fetcher output
mergesegs merge multiple segments into a single segment
readdb examine arbitrary fields of the database
analyze adjust database link-analysis scoring
server run a search server
or
CLASSNAME run the class named CLASSNAME
Most commands print help when invoked w/o parameters.
#
分享到:
相关推荐
本篇文章将详细介绍在 Windows XP SP2 环境下安装与配置 Nutch 的全过程,以便更好地理解和掌握搜索引擎技术。 #### 二、环境准备 为了确保 Nutch 能够正常运行,需要准备以下环境: 1. **JDK (Java Development ...
这些组件协同工作,实现了从发现网页到建立索引的全过程。 2. **URL管理**:Nutch 使用 URL 管理系统来跟踪已抓取的网页和待抓取的URL队列。URL通过种子列表开始,并根据链接关系进行扩展。 3. **网页抓取**:...
- **配置**:要深入了解Nutch的配置细节,可以通过研究`nutch-default.xml`文件中的各项配置选项。这个文件包含了Nutch的默认配置,通过结合源代码阅读,可以更深刻地理解每个配置项的具体作用。 - **定制**:要...
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效...通过研究和实践,你可以掌握从网页抓取到索引建立的全过程,为构建自己的搜索引擎或数据挖掘项目打下坚实基础。
4. **配置Nutch**:根据你的需求修改Nutch的配置文件,主要是在`conf`目录下的`nutch-site.xml`。这些配置包括爬虫的种子URL、存储路径、抓取间隔等。 5. **启动Nutch**:编译完成后,你可以通过运行`bin/nutch`...
在实际应用中,由于Nutch的默认配置和工作流程可能存在效率问题,因此,理解其运行原理并进行优化是提高Nutch性能的关键。本文将详细探讨提高Nutch运行效率的原理与方法。 首先,我们要理解Nutch的运行过程。Nutch...
Nutch源码中的关键组件包括爬虫(Fetcher)、解析器(Parser)、索引器(Indexer)和搜索器(Searcher),这些组件协同工作,实现从互联网抓取数据,到建立索引,再到执行查询的全过程。 总的来说,Nutch的源码对于...
- **过程:** 使用Eclipse通过Subclipse插件从SVN仓库检出Nutch 1.7的代码,需要指定正确的URL地址。 - **项目创建:** 创建Java项目,并命名,这里建议命名为“nutch1.7”。 **2. 文件编码与环境变量设置** - **编码...
Apache Nutch 是一款高度可扩展的开源全文搜索引擎框架,它为构建自定义的网络爬虫和搜索引擎提供了...通过学习和使用Nutch,你可以深入了解Web抓取、索引和搜索的全过程,这对于理解互联网信息处理有着深远的意义。
这份手册涵盖了从环境准备到系统配置的全过程,旨在帮助用户成功搭建一个分布式的Nutch系统。 首先,安装Nutch-1.0分布式版需要的基础环境包括Java开发套件(JDK)和Hadoop。JDK是运行Nutch所必需的,因为它是一个...
《Lucene+Nutch搜索引擎》是一本深入探讨如何利用开源搜索引擎技术构建高效检索系统的书籍。它主要围绕Apache Lucene和Nutch...通过学习,你可以掌握从网页抓取到结果返回的全过程,具备构建自己的搜索引擎系统的能力。
Nutch利用Lucene的强大索引和搜索能力,实现了从网页抓取到搜索结果展示的全过程。Nutch的索引数据结构直接基于Lucene,使得搜索结果能够快速返回。同时,Nutch还提供了丰富的插件机制,可以扩展其功能,例如支持...
这些组件协同工作,完成从互联网上抓取网页、解析内容、生成索引的全过程。 2. 抓取部分 2.1 爬虫的数据结构及含义 Nutch 使用URL存储库作为数据结构,用于存储待抓取的URL和已抓取的URL状态。URL存储库由多个部分...
Heritrix 提供了一个用户友好的Web控制界面,使得用户可以轻松配置抓取选项,这对于那些需要完整备份整个网站的场景来说非常有用。 **WCT (The Web Curator Tool)** 是一款旨在帮助数字馆藏机构进行Web内容收集的...
通过以上知识点,我们可以看到这个文档详细探讨了大数据环境下搜索引擎的分布式解决方案,涵盖了从数据采集、处理到检索的全过程,并针对相关技术进行了深入研究。这种解决方案对于处理和利用海量信息至关重要,特别...
日常管理过程 委任节点和解除节点 升级 第11章 Pig简介 安装与运行Pig 执行类型 运行Pig程序 Grunt Pig Latin编辑器 示例 生成示例 与数据库比较 PigLatin 结构 语句 表达式 1.4.4 ...
以上组件和库共同构成了一个完整的Lucene搜索系统,涵盖了从数据采集、预处理、索引创建、搜索执行到性能优化的全过程。通过深入理解这些源码,开发者可以更好地掌握Lucene的工作原理,提升其在实际项目中的应用水平...
为了运行Lucene示例程序,文档详细介绍了在MyEclipse中建立Web项目的过程,以及如何配置Tomcat服务器以自动部署项目。此外,文档还提到了如何引入必要的Jar包,包括Lucene核心库、HTML解析器Tidy、中文分析器`je-...
搜索过程中 ,未访问的链接被暂存在一个称为 "搜索前沿 "(Spider Frontier)的队列中 ,网络爬虫根据搜索前沿中链接的 "重要程度 "决定下一个要访问的链接。如何评价和预测链接的 "重要程度 "(或称价值 )是决定网络爬虫...