`
zha_zi
  • 浏览: 594016 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

如何把nutch导入myeclipse

阅读更多

 

   如何把整个nutch导入myeclipse

1:准备好nutch的源码开放包,我这里使用的nutch-0.9

2:file->new->java project->从已有的项目导入 然后选择你解压过的nutch文件夹

 

这事需要把conf文件夹修改成Default output folder 方法是右键properties -> java build path >source->  output floder 选择conf确定即可,

 

一般确定以后会把conf中以前的文件清空掉,在重新把nutch压缩包里的conf下的所有文件复制到工程的conf下

千万不要把新生成的配置文件删掉

 

3:还需要另外的两个jar文件 把这两个jar添加到构建路径 结束上附件

[WWW] http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

[WWW] http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

 

 

  • 配置nutch

  • 为处理方便,直接在nutch工程下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。

    2.配置crawl-urlfilter.txt

    打开工程conf/crawl-urlfilter.txt文件,找到这两行

    # accept hosts in MY.DOMAIN.NAME

    +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

    红色部分是一个正则,改写为如下形式

        +^http://([a-z0-9]*\.)*com.cn/
        +^http://([a-z0-9]*\.)*cn/ 
        +^http://([a-z0-9]*\.)*com/

  • 注意:“+”号前面不要有空格。

  • 3.修改conf\nutch-site.xml为如下内容,否则不会抓取。

    <configuration>

    <property>

         <name>http.agent.name</name>

         <value>*</value>

    </property>

    </configuration>

    在conf/nutch-defaul.xml下,将属性"plugin.folders"的值由“plugins”更改为 "./src/plugin" 如何nutch是1.0的则不用修改

     

     

    run-> open run dialog

    显示一个对话框,projcet 选择你新建的工程

    main class 选择 org.apache.nutch.crawl.Crawl

    点击arguments  在program arguments 

     添加 url.txt -dir crawled -depth 3 -topN 50

     如果是nutch-1.0还需要设置vm arguments(虚拟机)的参数

    设置为 -Xms32m -Xmx800m即可

    urls -dir crawl -depth 3 -topN 50
    ( urls是存放入口地址的文件夹(在工程的根目录建新建一个urls的目录,
    里面新建一个文本文件,也可以没有后缀名,在里面填写url 比如: http://www.163.com/),
    -dir创建一个名为 crawl 的文件夹,里面就是我们抓取回来的数据存放地方 

    -depth 3 采集深度 3层 topN 最大页数

     

 

分享到:
评论
2 楼 zha_zi 2010-11-19  
oolala 写道
好文章,就是卡在conf设置为源目录那里。感谢

呵呵,把nutch导入myecplise确实有一点小麻烦,后边的麻烦更多,web启动爬虫,
更换分词器,坚持一下,找找原因应该可以解决的,我当时用的是nutch1.0 ,可能版本不一样conf或许是有点不一样,反正1.0的用法在0.9上是不可以的
1 楼 oolala 2010-11-08  
好文章,就是卡在conf设置为源目录那里。感谢

相关推荐

    myeclipse8.5导入nutch1.2源码

    ### MyEclipse 8.5 导入 Nutch 1.2 源码的知识点详解 #### 一、背景介绍 Nutch 是一个高度可扩展且开放源代码的网络爬虫项目,由 Apache 软件基金会维护。它不仅能够抓取网页,还能进行全文检索,通常运行在 Linux...

    Nutch在MyEclipse下的配置[参照].pdf

    ### Nutch在MyEclipse下的配置详解 #### 一、前言 随着互联网技术的不断发展,数据抓取和分析成为了企业获取有价值信息的重要手段之一。Apache Nutch是一款开源的网络爬虫项目,它能够帮助开发者从万维网上抓取...

    nutch在windows下myeclipse中安装配置并且运行教程

    详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    #### 二、Nutch导入到MyEclipse并配置 **2.1 源码与编译代码获取** 首先需要下载Nutch的编译后的代码和源代码:`apache-nutch-1.2-bin.tar.gz`和`apache-nutch-1.2-src.zip`。 **2.2 导入Nutch源代码到MyEclipse*...

    eclipse配置nutch,eclipse配置nutch

    这样,Eclipse就会将Nutch作为一个项目导入,便于后续的开发和管理。 #### 步骤2:添加源码文件夹 在项目创建后,你需要确保Nutch的所有源码文件夹都被正确地添加到Eclipse中。通过右键点击项目名,选择...

    Eclipse中编译Nutch-0.9

    本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...

    nutch1.3在myclipse部署工程源码

    1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch1.3兼容。 2. 安装了MyEclipse:MyEclipse作为Java应用的IDE,提供了丰富的开发工具和插件,便于...

    搭建nutch开发环境步骤

    Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。它提供了一个可扩展的、高度模块化的框架,用于抓取、解析网页,并建立索引,是大数据和信息检索领域的重要工具。下面,我们将详细讲解如何搭建...

    Nutch中文教程nutcher.zip

    Nutch教程——导入Nutch工程,执行完整爬取 Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit ...

    nutch使用&Nutch;入门教程

    Nutch是Apache软件基金会开发的一款开源的网络爬虫项目,主要用于收集、索引和搜索互联网上的数据。这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务...

    Nutch 0.8笔记NUTCHNUTCH

    如果你只想使用 Nutch 的爬虫功能而不涉及索引,可以参照 Indexer 类自定义实现,例如将 segments 内容直接导入数据库。 **索引记录字段** 每个 Nutch 索引记录包含以下字段: - **url**:唯一标识符,由 ...

    nutch

    **Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发,并且是 Hadoop 的一部分,这意味着它能够利用分布式计算来处理大规模的数据抓取任务。...

    nutch2.2.1安装步骤.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...

    Apache Nutch 1.7 学习总结

    - 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    Windows下配置nutch

    - 导入 Nutch 源码,将 `src\java` 目录下的 `org` 文件夹复制到 Java 项目的 `src` 目录下。 - 将 `conf`, `lib`, `plugins` 目录复制到与 `src` 同级目录,并将 `conf` 添加到项目路径。 - 配置项目的 Build...

    Nutch搜索引擎·Eclipse开发配置(第4期)

    1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 1.1.6 Cygwin 安装配置 ...1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合

Global site tag (gtag.js) - Google Analytics