`
lmx800
  • 浏览: 29852 次
  • 来自: ...
文章分类
社区版块
存档分类
最新评论

使用ant驱动nutch crawl

阅读更多

在windows下 跑nutch  crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch  crawl显得更省力,下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本,nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素

<project name="nutch-crawl" default="crawl" basedir=".">
    
    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    

    
<path id="project.classpath">
        
<fileset dir="." includes="nutch-*.jar"/>
        
<fileset dir="lib" />
       
<pathelement path="."/>
        
<pathelement path="${conf.dir}"/>
    
</path>
    
    
    
<target name="crawl" >
        
<echo>crwaling starting...</echo>
        
<property name="JVM.extra.args" value="-Xmx1000m" />
        
<java classname="org.apache.nutch.tools.CrawlTool" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="e:/nutch-0.7.1/urls"/>
            
<arg value="-dir"/>
            
<arg value="e:/xxcrawled"/>
            
<arg value="-depth"/>
            
<arg value="2"/>
            
<arg value="-threads"/>
            
<arg value="10"/>
        
</java>
        
<echo>crwaling finished...</echo>
    
</target>
    
</project>

注意上面代码中的<arg>,你可以根据要求设置.
分享到:
评论

相关推荐

    nutch crawl代码解析

    `Crawl` 类位于 `org.apache.nutch.crawl` 包中,它包含了启动 Nutch 抓取程序的主要逻辑。`main` 函数是整个程序的入口点,它接收命令行参数并根据这些参数配置 Nutch 的行为。当运行 Nutch 时,你需要提供至少一个...

    把多次用nutch_crawl获得的所有目录合并在一起

    在Nutch的爬取过程中,每次`nutch crawl`操作都会生成一个新的目录,包含爬取的网页数据、链接数据库(linkdb)、网页数据库(crawldb)和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时,可以使用`...

    nutch 爬到的CSDN数据 nutch crawl

    当你提到“nutch 爬到的 CSDN 数据”,这意味着有人或某个项目使用 Nutch 抓取了 CSDN 网站上的信息。 **Nutch 爬虫的基本工作流程:** 1. **种子列表生成**:爬虫开始时需要一份种子URL列表,这些是爬虫首先访问的...

    nutch使用&Nutch;入门教程

    这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页...

    关于Nutch的安装

    - **使用Subversion**:如果你想要获取最新的源代码,可以使用Subversion工具检出代码库,并使用Ant工具构建Nutch。 **3. 检查安装** 安装完成后,在Nutch的根目录下运行`bin/nutch`命令。如果显示出Nutch命令脚本...

    nutch2.2.1安装步骤.docx

    4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库连接信息更新 `gora.properties` 文件,例如设置 `db.url`、`db.driver`、`db.username` 和 `db.password`。 在 Nutch 进行抓取时,...

    Nutch使用入门

    本文档将引导你入门Nutch的基本使用,包括环境配置、部署、爬取网页以及搜索功能的实现。 **环境要求:** 1. **JDK 1.5 或更高版本** - Nutch 需要Java开发环境支持,确保你的系统已经安装了Java,并且版本符合要求...

    Nutch使用指南(英文)

    - 或者,从 Subversion 检出最新源代码并使用 Ant 构建。 尝试执行以下命令以查看 Nutch 命令脚本的文档: ``` bin/nutch ``` 现在,我们可以开始爬取了。有两种爬取方式: 1. **内部网爬取**:使用 `crawl` 命令...

    nutch

    Nutch 还提供了命令行工具,如 `bin/nutch crawl`,用于启动爬虫流程。 **Nutch 入门教程** 《Nutch 入门教程.pdf》这本书籍或文档应该包含了 Nutch 的基础知识、安装配置、使用示例以及常见问题解答等内容。通过...

    nutch 0.9 版(包含war,bin,src可直接部署使用)

    "nutch crawl"是指Nutch的爬取流程,它由一系列步骤组成,包括初始化、抓取、解析、过滤、索引等。Nutch提供的这个文件可能是一组预设的脚本或配置,指导用户如何执行完整的爬取流程。这包括设置爬取种子URL、定义...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...

    Nutch2.3.1 环境搭建

    bin/nutch crawl urls -dir crawl -depth 2 -topN 10 ``` 这将执行两次抓取(默认深度为1),并返回前10个结果。 **五、集成Hadoop** 如果你希望利用Hadoop分布式计算能力,需进行以下步骤: 1. 配置Nutch的`...

    windows下nutch的安装.pdf

    Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现全文搜索功能。Cygwin是一个在Windows环境下运行的类Unix模拟环境,它提供一个庞大的类Unix工具...

    nutch根据URL来查找快照

    2. **执行抓取**: 使用Nutch的`bin/nutch crawl`命令启动抓取过程。这将按照设定的策略抓取互联网上的网页,并保存为一系列的段(segment)文件,每个段包含多个网页的抓取信息和快照。 3. **生成索引**: 抓取完成...

    Apache Nutch 1.7 在windows和Linux下的安装

    * 首先,使用 Nutch 1.7 的 crawl 命令来爬取网络上的网页。 * 之后,使用 Nutch 1.7 的 index 命令来索引爬取的网页。 * 最后,使用 Nutch 1.7 的 search 命令来搜索索引的网页。 5. Nutch 1.7 与 Solr 结合使用 ...

Global site tag (gtag.js) - Google Analytics