使用ant驱动nutch crawl - 凤涅盘 - ITeye博客

`

lmx800

浏览: 30564 次
来自: ...

最近访客更多访客>>

dythaitian

chen_l23

ZT71363387

469471432

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (16)

社区版块

存档分类

2007-01 ( 16)
更多存档...

最新评论

使用ant驱动nutch crawl

Ant 脚本 Windows JVM Unix

阅读更多

在windows下跑nutch crawl必须使用cygwin,没办法的事情，目前nutch只有shell脚本驱动，这多多少少给windows开发者带来一些麻烦，虽然通常情况下，java应用总会部署在unix机器上，即使如此，对于众多在windows上开发 java 应用的开发者来说，不需要装什么其他东西，直接在window环境中就能跑 nutch crawl显得更省力，下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本，nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素

<project name="nutch-crawl" default="crawl" basedir=".">

<property name="lib.dir" location="lib"/>

<property name="conf.dir" location="conf"/>

<path id="project.classpath">

<fileset dir="." includes="nutch-*.jar"/>

<fileset dir="lib" />

<pathelement path="."/>

<pathelement path="${conf.dir}"/>

</path>

<target name="crawl" >

<echo>crwaling starting...</echo>

<property name="JVM.extra.args" value="-Xmx1000m" />

<java classname="org.apache.nutch.tools.CrawlTool" classpathref="project.classpath" fork="true">

<jvmarg line="${JVM.extra.args}"/>

<arg value="e:/nutch-0.7.1/urls"/>

<arg value="-dir"/>

<arg value="e:/xxcrawled"/>

<arg value="-depth"/>

<arg value="2"/>

<arg value="-threads"/>

<arg value="10"/>

</java>

<echo>crwaling finished...</echo>

</target>

</project>

注意上面代码中的<arg>,你可以根据要求设置.

分享到：

搜索引擎之中文分词实现(java版) | Nutch插件加载分析

2007-01-07 10:51
浏览 1137
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch crawl代码解析: `Crawl` 类位于 `org.apache.nutch.crawl` 包中，它包含了启动 Nutch 抓取程序的主要逻辑。`main` 函数是整个程序的入口点，它接收命令行参数并根据这些参数配置 Nutch 的行为。当运行 Nutch 时，你需要提供至少一个...

把多次用nutch_crawl获得的所有目录合并在一起: 在Nutch的爬取过程中，每次`nutch crawl`操作都会生成一个新的目录，包含爬取的网页数据、链接数据库（linkdb）、网页数据库（crawldb）和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时，可以使用`...

nutch 爬到的CSDN数据 nutch crawl: 当你提到“nutch 爬到的 CSDN 数据”，这意味着有人或某个项目使用 Nutch 抓取了 CSDN 网站上的信息。 **Nutch 爬虫的基本工作流程：** 1. **种子列表生成**：爬虫开始时需要一份种子URL列表，这些是爬虫首先访问的...

nutch使用&Nutch;入门教程: 这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。一、Nutch简介 Nutch是一个基于Java的开源搜索引擎，其主要功能包括网页抓取、链接分析、网页...

关于Nutch的安装: - **使用Subversion**：如果你想要获取最新的源代码，可以使用Subversion工具检出代码库，并使用Ant工具构建Nutch。 **3. 检查安装** 安装完成后，在Nutch的根目录下运行`bin/nutch`命令。如果显示出Nutch命令脚本...

nutch2.2.1安装步骤.docx: 4. 执行抓取周期：`bin/nutch crawl -i crawl` 注意，你需要根据实际的数据库连接信息更新 `gora.properties` 文件，例如设置 `db.url`、`db.driver`、`db.username` 和 `db.password`。在 Nutch 进行抓取时，...

Nutch使用入门: 本文档将引导你入门Nutch的基本使用，包括环境配置、部署、爬取网页以及搜索功能的实现。 **环境要求：** 1. **JDK 1.5 或更高版本** - Nutch 需要Java开发环境支持，确保你的系统已经安装了Java，并且版本符合要求...

Nutch+solr + hadoop相关框架搭建教程: 1. 使用 `bin/nutch crawl` 命令启动爬虫，指定种子 URL 文件（urls/url.txt）和工作目录。 2. 爬取的数据存储在 `data` 目录下，包括 crawl.db 数据库、segments 文件夹等。 3. `crawldb` 子命令用于查看和分析爬取...

Nutch使用指南(英文): - 或者，从 Subversion 检出最新源代码并使用 Ant 构建。尝试执行以下命令以查看 Nutch 命令脚本的文档： ``` bin/nutch ``` 现在，我们可以开始爬取了。有两种爬取方式： 1. **内部网爬取**：使用 `crawl` 命令...

Windows下使用Eclipse配置Nutch2图文详解: ### Windows下使用Eclipse配置Nutch2图文详解 #### 一、引言随着大数据时代的到来，网络爬虫技术越来越受到人们的重视。Apache Nutch是一款开源的网页抓取与索引构建工具，它基于Hadoop分布式计算框架。本文将...

nutch: Nutch 还提供了命令行工具，如 `bin/nutch crawl`，用于启动爬虫流程。 **Nutch 入门教程** 《Nutch 入门教程.pdf》这本书籍或文档应该包含了 Nutch 的基础知识、安装配置、使用示例以及常见问题解答等内容。通过...

nutch 0.9 版(包含war,bin,src可直接部署使用): "nutch crawl"是指Nutch的爬取流程，它由一系列步骤组成，包括初始化、抓取、解析、过滤、索引等。Nutch提供的这个文件可能是一组预设的脚本或配置，指导用户如何执行完整的爬取流程。这包括设置爬取种子URL、定义...

Nutch_插件深入研究: 为了在Eclipse中使用Ant构建Nutch插件，需要确保Eclipse已安装Ant插件，然后按照以下步骤操作： 1. **配置Ant构建路径**：在Eclipse中，通过Project → Properties → Ant Build Path，添加Ant构建所需的库。 2. *...

nutch帮助文档；nutch学习入门: - **运行Nutch流程**：执行`bin/nutch crawl`命令，依次进行抓取、解析、索引等步骤。 - **使用Solr或Elasticsearch**：Nutch可以将索引数据导出到Solr或Elasticsearch，以实现更强大的搜索功能。 - **学习源码**...

图解搜索引擎nutch配置: - 使用Cygwin终端进入`nutch`目录。 - 执行命令`bin/nutch crawl url.txt -dir crawled -depth 3 -threads 10 -topN 50 > crawl.log`。 - 其中，`url.txt`指定待抓取的URL列表；`-dir crawled`指定抓取内容的存储...

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx: Apache Nutch 是一个开源的网络爬虫框架，用于抓取互联网上的网页并生成索引，以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4，并使用Eclipse进行开发。以下是你需要知道的关键步骤： 1. **...

Nutch2.3.1 环境搭建: bin/nutch crawl urls -dir crawl -depth 2 -topN 10 ``` 这将执行两次抓取（默认深度为1），并返回前10个结果。 **五、集成Hadoop** 如果你希望利用Hadoop分布式计算能力，需进行以下步骤： 1. 配置Nutch的`...

windows下nutch的安装.pdf: Nutch是一个开源的Web搜索引擎框架，基于Java编写，它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引，实现全文搜索功能。Cygwin是一个在Windows环境下运行的类Unix模拟环境，它提供一个庞大的类Unix工具...

nutch根据URL来查找快照: 2. **执行抓取**: 使用Nutch的`bin/nutch crawl`命令启动抓取过程。这将按照设定的策略抓取互联网上的网页，并保存为一系列的段（segment）文件，每个段包含多个网页的抓取信息和快照。 3. **生成索引**: 抓取完成...

Apache Nutch 1.7 在windows和Linux下的安装: * 首先，使用 Nutch 1.7 的 crawl 命令来爬取网络上的网页。 * 之后，使用 Nutch 1.7 的 index 命令来索引爬取的网页。 * 最后，使用 Nutch 1.7 的 search 命令来搜索索引的网页。 5. Nutch 1.7 与 Solr 结合使用 ...

Global site tag (gtag.js) - Google Analytics