`

nutch-0.9 build.xml和.bat文件 配置

阅读更多

在Windows下运行Nutch,很简单,只要你能执行Crawl这个类就行,写一个Ant脚本放在Nuthc的根目录下执行它就OK,内容如下:

<project name="nutch-crawl" default="crawl" basedir=".">
    
    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    

    
<path id="project.classpath">
        
<fileset dir="." includes="nutch-*.jar"/>
        
<fileset dir="lib" />
        
<pathelement path="."/>
        
<pathelement path="${conf.dir}"/>
    
</path>
    
    
    
<target name="crawl" >
        
<echo>crwaling starting</echo>
        
<property name="JVM.extra.args" value="-Xmx512m" />
        
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="C:/dev-tools/nutch-0.9/urls"/>  <!-- url.txt文件存放的目录 -->
            
<arg value="-dir"/>
            
<arg value="C:/dev-tools/nutch-0.9/crawl"/>  <!-- 爬虫文件存放的目录 -->
            
<arg value="-depth"/>
            
<arg value="3"/>
            
<arg value="-threads"/>
            
<arg value="15"/>
        
</java>
        
<echo>crwaling finished</echo>
    
</target>
    
</project>

 

启动bulid.xml批处理文件run.bat(放在Nuthc的根目录,假若工程放在E盘下)

@echo off  
cd e:
ant
pause

分享到:
评论

相关推荐

    Eclipse中编译Nutch-0.9

    - **修改配置文件**:编辑关键的配置文件,如hadoop-site.xml、nutch-default.xml和nutch-site.xml,以适应本地环境和个性化需求。 - 在`nutch-default.xml`中,更新`http.agent.name`属性值为`nutch-1.0`,并指定...

    apache-nutch-2.3.1-src.tar.gz

    5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    nutch-0.9 环境搭建所需最小cygwin

    4. **配置Nutch**:根据你的需求修改Nutch的配置文件,主要是在`conf`目录下的`nutch-site.xml`。这些配置包括爬虫的种子URL、存储路径、抓取间隔等。 5. **启动Nutch**:编译完成后,你可以通过运行`bin/nutch`...

    apache-nutch-1.6-bin.tar.gz最新版

    在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/...

    Nutch_的配置文件

    2. **Nutch的配置文件**:同样,有`Nutch-default.xml`和`Nutch-site.xml`。`Nutch-default.xml`包含Nutch的默认配置,提供了一系列用于爬取、解析、索引等操作的参数。`Nutch-site.xml`则是用户自定义的配置文件,...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件,对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的,遵循 ...

    apache-nutch-1.4-bin.tar.gz

    2. **配置**:编辑conf/nutch-site.xml文件,设置如存储路径、抓取间隔、抓取范围等相关参数。 3. **创建种子**:在conf/urls目录下创建种子文件,列出要开始抓取的初始URL。 4. **运行Nutch**:使用bin/nutch命令行...

    apache-nutch-1.7-src.tar.gz

    Nutch的配置主要通过`conf`目录下的文件完成,如`nutch-site.xml`定义了项目的配置参数,`regex-urlfilter.txt`和`fetcher.conf`分别用于URL过滤和抓取设置。 为了运行Nutch,你需要搭建一个Hadoop环境,因为Nutch...

    apache-nutch-1.6-src.tar.gz

    - **XML配置与XML Schema**:了解如何解读和修改Nutch的配置文件,理解`nutch-site.xml`的结构和作用。 - **Java编程**:源码阅读和开发需要基本的Java编程技能,特别是对多线程和网络编程的理解。 - **Ant构建工具*...

    apache-nutch-1.5.1-bin.tar.gz

    Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的开放源代码方便任何人去查看Nutch排序算法的工作流程。因此Nutch就可以更好的发展,为那些爱好...

    apach-nutch-1.9-bin.tar.gz

    4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part1

    apache-nutch-1.4-bin.tar.gz.part1

    apache-nutch-2.3-src.zip

    4. **配置与定制**:Nutch的配置主要在conf目录下的`nutch-site.xml`文件中进行,包括爬虫策略、存储路径、Hadoop配置等。用户可以根据需求修改这些配置或编写自定义插件。 5. **与Hadoop的集成**:Nutch 2.3 使用...

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    - `src/conf`:存放配置文件,如 `nutch-site.xml`,用于设置爬虫的行为和各种参数。 - `src/test`:测试代码,包括单元测试和集成测试,有助于理解和验证 Nutch 的工作原理。 - `src/bin`:包含命令行工具,如 `...

    windows下nutch的安装.pdf

    5. Nutch配置文件:如nutch-site.xml、nutch-default.xml等。 安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在环境变量中设置NUTCH_JAVA_HOME。在Cygwin的终端中,...

    nucth-1.2.part01 (该资源有10个包,共144M 完整nutch包 目录如下)

    -rwx------+ 1 build.xml -rwx------+ 1 command.txt drwx------+ 2 conf -rw-r--r-- 1 crawl.log drwx------+ 4 crawled -rwx------+ 1 default.properties drwx------+ 22 docs -rwx------+ 1 hello.l ...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    在“apache-nutch-1.4-src.tar.gz”这个压缩包中,包含了Nutch 1.4版本的源代码,用户可以根据自己的需求对代码进行定制和扩展。 Nutch 的主要组件包括以下几个方面: 1. **网络爬虫(Crawler)**:Nutch 的网络...

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part2

Global site tag (gtag.js) - Google Analytics