`
isiqi
  • 浏览: 16553526 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

windows下nutch0.8初探

阅读更多
前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。

我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<projectname="nutch-crawl"default="crawl"basedir=".">


<propertyname="lib.dir"location="lib"/>
<propertyname="conf.dir"location="conf"/>
<propertyname="urls.dir"location="urls"/>



<pathid="project.classpath">

<filesetdir="${lib.dir}"/>
<pathelementpath="${conf.dir}"/>
<filesetdir="."includes="nutch-*.jar"/>

</path>


<targetname="crawl">
<echo>crwalingstarting...</echo>
<propertyname="JVM.extra.args"value="-Xmx1000m"/>
<javaclassname="org.apache.nutch.crawl.Crawl"classpathref="project.classpath"fork="true">
<jvmargline="${JVM.extra.args}"/>
<argvalue="${urls.dir}"/>
<argvalue="-dir"/>
<argvalue="e:/xxcrawled20"/>
<argvalue="-depth"/>
<argvalue="2"/>
<argvalue="-threads"/>
<argvalue="10"/>
</java>
<echo>crwalingfinished...</echo>
</target>

</project>


应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值


还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序, <pathelementpath="${conf.dir}"/>必须位于
<filesetdir="."includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml

至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<property>
<name>searcher.dir</name>
<value>E:\xxcrawled2</value>
</property>

value部分填入你crwal时设置的目录
分享到:
评论

相关推荐

    Nutch 0.8笔记NUTCHNUTCH

    Luke 工具对于查看和理解索引内容非常有用,而 Nutch 在 Windows 上运行需要借助 Cygwin。此外,Nutch 0.8 的 `crawl` 脚本也有更新。 **你需要了解的 Nutch** 1. **文档阅读**:深入了解 Nutch 需要阅读官方提供...

    Lucene2.0+Nutch0.8 API帮助文档(CHM格式)

    《Lucene2.0+Nutch0.8 API帮助文档》是一个综合性的技术资源,它包含了对Lucene 2.0和Nutch 0.8这两个关键的开源搜索引擎库的详细接口和功能说明。这两个组件在信息检索、全文搜索以及网络爬虫领域有着广泛的应用。 ...

    windows下nutch的安装.pdf

    在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...

    nutch tutorials0.8

    ### Nutch 0.8.x 教程:深入解析企业级搜索引擎技术 #### 一、基础知识与需求概览 Nutch是一款开源的网络爬虫工具,由Apache软件基金会开发,旨在帮助用户抓取互联网上的信息并构建自己的搜索引擎。在本教程中,...

    Windows下配置nutch

    因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...

    windows下nutch的安装配置以及与tomcat的集成.doc

    ### Windows下Nutch的安装配置与Tomcat集成详解 #### Nutch概述 Nutch是一款开源的搜索引擎框架,基于Java开发,旨在提供一个完整的搜索引擎解决方案。它由两大部分组成:抓取部分(Crawler),负责抓取网页数据并...

    nutch Windows版脚本

    该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行

    Nutch在windows下的安装

    Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    nutch在windows下myeclipse中安装配置并且运行教程

    详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等

    Apache Nutch 1.7 在windows和Linux下的安装

    Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...

    Windows配置Nutch.rar

    本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机会但我不想因此放弃对搜索引擎学习和实战在网上听到很多人推荐Nutch所以我打算学习下Nutch要学习Nutch还是先从安装和使用...

    Nutch在windows下的安装.pdf

    Nutch在windows下的安装.pdf

    Windows系统下Nutch检索工具的搭建步骤

    ### Windows系统下Nutch检索工具的搭建步骤 #### 一、引言 随着互联网的快速发展,数据量呈爆炸性增长,对于数据的抓取、分析和处理能力的需求日益增加。Nutch作为一个开源的信息检索框架,提供了强大的网页爬取与...

    windows下的nutch配置总结

    以下是关于Windows下配置Nutch的详细步骤和关键知识点: 1. **环境准备**: - 安装Java Development Kit (JDK):Nutch依赖于Java环境,因此首先确保你的系统已经安装了JDK,并且`JAVA_HOME`环境变量已经正确设置。...

    关于Nutch的安装

    在Windows环境下,你需要设置环境变量`NUTCH_JAVA_HOME`指向JDK的安装路径,例如:`NUTCH_JAVA_HOME=c:\jdk1.5`。 - **操作系统**:推荐使用Linux,如Sun或IBM的Linux发行版。若在Windows环境下,需安装Cygwin以获得...

    windows7环境下配置nutch

    在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...

Global site tag (gtag.js) - Google Analytics