`

在Ecipse中配置Nutch

阅读更多

在Windows下面配置Nutch有两种方法,一种是使用cygwin模拟Linux环境,另一种是配置到Eclipse中运行。因为linux环境不熟悉,所以还是决定使用eclipse了。

 

在Eclipse中配置Nutch的步骤:(Eclipse3.4, Nutch0.9)

第一步:下载release版本的nutch-0.9.tar.gz.解压到d盘.保证下载的nutch中没有.classpath和.projsect.即d:/nutch-0.9。注意解压路径中最好不要包含中文,因为将爬行结果在Tomcat中配置时,就可以直接指向保存结果的文件夹。

 

 

 

第二步: 修改nutch-0.9\conf目录下的nutch-site.xmlcrawl-urlfilter.txt两个文件

打开nutch-0.9\conf\nutch-site.xml文件。 

<configuration></configuration>中间插入以下内容:

 

<property>

<name>http.agent.name</name>

<value>Jennifer</value>

<description>HTTP 'User-Agent' request header. MUST NOT be empty -

please set this to a single word uniquely related to your organization.

NOTE: You should also check other related properties:

     http.robots.agents

     http.agent.description

     http.agent.url

     http.agent.email

     http.agent.version

and set their values appropriately.

</description>

</property>

 

<property>

<name>http.agent.description</name>

<value>Jennifer</value>

<description>Further description of our bot- this text is used in

the User-Agent header. It appears in parenthesis after the agent name.

</description>

</property>

 

<property>

<name>http.agent.url</name>

<value>Jennifer</value>

<description>A URL to advertise in the User-Agent header. This will

   appear in parenthesis after the agent name. Custom dictates that this

   should be a URL of a page explaining the purpose and behavior of this

   crawler.

</description>

</property>

 

<property>

<name>http.agent.email</name>

<value>Jennifer</value>

<description>An email address to advertise in the HTTP 'From' request

   header and User-Agent header. A good practice is to mangle this

   address (e.g. 'info at example dot com') to avoid spamming.

</description>

</property>

 

 

并修改<value></value>中间的值,这里的设置是因为Nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。所以设置成任何你喜欢的值都可以的。

 

打开Nutch-0.9\conf\crawl-urlfilter.txt文件

找到"+^http://([a-z0-9]*\.)* MY.DOMAIN.NAME/”,将其中的'MY.DOMAIN.NAME/'直接删除。

 

(为了后面的方便,建议在修改完成后将conf文件夹复制一下,并保存在硬盘的其他的地方。)

 

 

 

 

第三步:到下面两个页面去下载两个jar文件,他们分别是:

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

下载其中的jid3lib-0.5.1.jarrtf-parser.jar两个文件,并分别把他们拷贝到Nutch\src\plugin\parse-mp3\libNutch\src\plugin\parse-rtf\lib两个文件夹下。

也可以从本文的附件中下载。

 

 

 

第四步: 准备工作做好以后就可以在Eclipse中配置Nutch了。打开Eclipse后,我们开始建立Java project。具体的做法是:

File > New > Project > Java project创建Java项目(注意不是JavaWeb项目),给我们的项目命名,然后选择Create project from existing source,并指向你的Nutch录。

 

 

 点击Next后我们就能看到用于定义Java build的设置环境。在第一个选项卡source下面我们可以看到三个连接,我们需要选择第三个:Add project ‘Nutch’ to build path,点击之后我们就选择conf,完成以上步骤之后我们就将conf加入到了classpath中。注意:这里不是指上面的第三个选项卡。

 

 

现在需要我们选择Default output folder,在这里我们必须选择Nutch/conf作为它的Default output folder,否则就会找不到crawl-urlfilter.txt,从而不能完成网站的爬行,会出现以下提示:

Generator: 0 records selected for fetching, exiting ...

Stopping at depth=0 - no more URLs to fetch.

No URLs to fetch - check your seed list and URL filters.

 

 

 

第五步: 点击Finish,这时我们就完成了前续的配置工作,这时我们就可点击运行,选择Java Application点击OK,开始让Eclipse自己寻找项目的主类。我们选择Crawl-org.apache.nutch.crawl,点击OK。这时程序会报错,不过没关系,我们的目的只是运行一次。

这时我们可以回到nutch-0.9/conf目录下看下,我们可以看到里面的内容发生了改变,这时就需要我们还原原来conf下的内容,这时我们在第2步中另外保存的conf文件夹就起到了作用。(当然,新生成的东西并不影响我们的后续爬行工作,我们可以只考虑将原来conf下的内容复制回来,但是我个人觉得为了文件夹的管理和查找方便,我建议将新生成的内容全部删除后在将原来conf下的内容复制回来。还有一点需要我们注意,conf里面不可以有org文件夹,如果有的话delete,否则的话会影响index)当然,拷回来以后得记得刷新一下哦!

 

 

 

 

第六步: 点击菜单中的Run > Run Configurations,选中Arguments选项卡。

Program arguments中填写爬行命令,

如: urls -dir crawl -depth 2 -topN 50

 

urls: 自己创建的文件夹,位置在d:/nutch-0.9/urls,即项目的根目录下,该文件夹下需要一个文本文件,名字和后缀名任取,如:nutch.txt。该文件中填写要爬行的起始网页URL,如:http://www.baidu.com/ 。

 

-dir crawl: 设定存放爬行结果的文件夹,crawl文件夹在程序运行时会自动创建,如果已经存在该文件夹,运行时会报错。

 

-depth 2: 设定爬行时的深度,个人理解为爬行时的次数。

 

-topN 50: 设定一次爬行最多可以读取到的链接数。

 

VM arguments中填写:

-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

 

从参数名称可以看出,这两个参数时用来设置存放日志文件的文件夹和文件名称。

 

填写完成后,点击apply完成提交。由于我们到目前为止还没有建立需要我们爬行的url地址,所以我们在提交完成后,点击close。

 

 

 

 

第七步: 现在我们就可以建立需要Nutch爬行的url地址:

在urls/nutch.txt文件中输入http://www.baidu.com/

 

然后在nutch-0.9/conf/crawl-urlfilter.txt 文件中 找到# accept hosts in MY.DOMAIN.NAME

将下面的+^http://([a-z0-9]*\.)*

改为+^http://([a-z0-9]*\.)*baidu.com/

 

建好之后,只要我们在点击工具栏上的运行按钮,我们就可以在Console的透视图中看到Nutch爬行的结果了。当然如果我们之前已经建立好了我们需要爬行的url地址,我们就可以直接点击run,这时我们也可以在Console的透视图中看到Nutch爬行的结果。

分享到:
评论

相关推荐

    eclipse配置nutch,eclipse配置nutch

    ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File &gt; New &gt; Project &gt; Java project”,然后点击“Next”。在创建项目时,选择“Create project ...

    Eclipse中编译Nutch-0.9

    在本篇文章中,我们将深入探讨如何在Eclipse环境中编译Nutch-0.9,一个开源的网络爬虫项目,用于抓取互联网上的网页信息。文章涵盖的关键知识点包括:环境准备(JDK/JRE版本需求)、源码获取与项目导入、解决编译...

    Eclipse中编译Nutch-1.0

    导入项目后,可能会遇到30处编译错误,这主要是因为Nutch中两个必要的插件未随源码一同打包,即解析mp3和rtf文档的插件。这些插件由于license问题被独立出来,需从特定链接下载对应的jar包(jid3lib-0.5.1.jar和rtf-...

    在eclipse中部署nutch所缺的包

    在Nutch中处理网页内容时,有时会遇到包含音频链接的情况,特别是当抓取的网站涉及到音乐分享或在线播放服务时。MP3是互联网上最常用的音频格式之一,因此,Nutch需要能够解析MP3链接以进行内容理解和索引。为了在...

    nutch1.2 java的project

    在Eclipse中设置Nutch 1.2项目,你需要以下步骤: 1. **导入项目**:在Eclipse中选择“File” &gt; “Import” &gt; “Existing Projects into Workspace”,然后浏览到下载的`nutch1.2+Project`目录,导入项目。 2. **...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    Nutch搜索引擎·Eclipse开发配置(第4期)

    1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 ...1.2 Eclipse 开发 1.2.1 Solr 部署 1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合

    Windows下配置nutch

    - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java` 目录下的 `org` 文件夹复制到 Java 项目的 `src` 目录下。 - 将 `conf`, `lib`, `plugins` 目录复制到与 `src` ...

    nutch Eclipse

    在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse ...通过正确配置 Eclipse、解决授权问题以及修复源代码中的错误,你可以顺利地在本地环境中编译和运行 Nutch,从而进一步理解和定制这个强大的网络爬虫系统。

    nutch爬虫+java+eclipse

    下面将详细介绍Nutch爬虫、Java语言在爬虫开发中的应用以及如何在Eclipse中配置和运行Nutch。 一、Nutch爬虫 Nutch 是Apache软件基金会的一个项目,它的设计目标是成为一个可扩展、高性能的网络爬虫。Nutch的核心...

    Nutch1.4_windows下eclipse配置图文详解.docx

    - **设置主类**:在 Eclipse 中右键点击工程,选择 “Run As” -&gt; “Run Configurations”,在 “Java Application” 下新建配置。 - **配置参数**: - 主类设置为 `org.apache.nutch.crawl.Crawl`。 - 在 ...

    Nutch_插件深入研究

    为了在Eclipse中使用Ant构建Nutch插件,需要确保Eclipse已安装Ant插件,然后按照以下步骤操作: 1. **配置Ant构建路径**:在Eclipse中,通过Project → Properties → Ant Build Path,添加Ant构建所需的库。 2. *...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    java Nutch项目

    接着,导入Nutch源代码到Eclipse工程,按照“使用说明.txt”中的步骤设置项目依赖和运行配置。通常,这会涉及到配置Nutch的配置文件(如`conf/nutch-site.xml`),以及指定爬虫的种子URL。 5. **Nutch的应用场景** ...

    Nutch程序运行环境配置

    Nutch程序运行环境配置是Java开发中的一个重要环节,特别是在Windows操作系统上进行Nutch相关的开发工作。Nutch是一个开源的Web爬虫项目,用于抓取互联网上的网页并建立索引,通常与Hadoop等大数据处理框架结合使用...

    Nutch 安装ppt

    本文介绍了 Nutch 的基本概念、架构以及如何在 Eclipse 中导入和配置 Nutch。同时,还探讨了如何与 Solr 整合以及如何使用 Lucene 进行文本索引和搜索。通过本文的学习,可以帮助读者更好地理解 Nutch 的工作原理和...

    Eclipse中编译运行Hadoop-0.20.1源码

    在项目设置中,确保添加了“conf”文件夹作为类路径,以便Eclipse能够找到配置文件。同时,确保在“Order and Export”选项中,“conf”位于顶部,这样在编译时会优先考虑这些配置。 在“Source”配置中,你需要...

Global site tag (gtag.js) - Google Analytics