`
wangwei3
  • 浏览: 120940 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

eclipse部署配置nutch1.3

阅读更多
[img][/img]原创文章,转载请注明出处  nutch群:74985182 欢迎加入交流

nutch是在hadoop基础上做的,由于hadoop只在linux上运行,里面涉及到大量的操作linux程序,所以我们在部署的时候必须先安装cygwin环境

一、安装cygwin环境cygwin是windows下模拟linux环境的免费软件

下载安装程序:http://www.cygwin.com/setup.exe
安装完成后运行setup.exe点击下一步如下图

界面出现三种安装模式:
Install from Internet,这种模式直接从Internet安装,适合网速较快的情况;
Download Without Installing,这种模式只从网上下载Cygwin的组件包,但不安装;
Install from Local Directory,这种模式与上面第二种模式对应,当你的Cygwin组件包已经下载到本地,则可以使用此模式从本地安装Cygwin。

我选择直接下载(下载这东西超费劲)
下一步后出现一下界面需要选择安装目录

默认在C:\cygwin\,你也可以选择自己的安装目录,然后选择“下一步”

这一步我们可以选择安装过程中从网上下载的Cygwin组件包的保存位置,选择完以后,点击“下一步”

这一步选择连接的方式,选择你的连接方式,选默认的“diret Connection”然后选择“下一步”

这一步需要选择下载的服务地址,寻找Cygwin中国镜像的地址:http://www.cygwin.cn,如果找不到就add一下。我图方便选择了tw的地址,点击“下一步”

这一步选择需要安装的内容

常用的有default列表(表示值安装默认的安装项)、Install(表示安装全部程序)、Reinstall(表示重新安装程序),如果带宽允许就安装Install,一步到位,这样至少会下载1.5G的东东哦。我选择的是default主要是带宽慢,不知道以后会不会少东西,少了再补吧。哈哈。点击“下一步”

然后就都选默认就OK了

然后把cygwin/bin加入环境变量的path中。

二、Eclipse中部署nutch
首先下载nutch,可以用svn或者到apache下载
nutch的主页是:http://lucene.apache.org/nutch/目前最新是1.3.下载tar.gz的文件。下载后解压到目录(我选择了D:/nutch).解压完成后打开eclipse
选择 file->新建->java project
选择 browse 按钮 选择工程解压到所在目录,在project name 写上project 名称。



点击下一步 选择libraries标签 然后选择Add Class Folder按钮 把conf文件夹加入

点击order and Export 标签 把conf置顶(top)
这步非常重要,我就是因为没有操作这步报了找不到plugin 的异常,看了官网才发现在测试文件 src/test中也有conf目录,而nutch会去找src/test/conf目录

然后选择finished完成!

然后会发现很多jar包没有,只需要选择build.xml 右键 -> run as ->ant build
便会下载所有的jar包。然后手动导入即可。

下面开始配置简单抓取

1. 在src目录下创建文件夹 urls
   在urls文件夹下创建url.txt文件
    在url.txt文件中加入需要抓取的链接
     例如我下载的搜狐汽车我便加入
     
http://auto.sohu.com/

      注意:必须以/结尾
2.配置nutch-site.xml
<configuration>
	<property>
		<name>http.agent.name</name>
		<value>nutch-1.3</value>
		<description>user-agent这里可以自己写,伪装成IE或者谷歌爬虫等</description>
	</property>

	<property>
		<name>searcher.dir</name>
		<value>F:\testdb\ser</value>
		<description>索引目录.</description>
	</property>

	<property>
		<name>http.agent.url</name>
		<value>http://www.google.com/</value>
		<description>爬虫网站</description>
	</property>
	<property>
		<name>http.agent.email</name>
		<value>google@gmail.com</value>
		<description>可以联系到爬虫的mail</description>
	</property>
</configuration>


3.配置nutch-default.xml
<property>
  <name>plugin.folders</name>
  <value>./src/plugin</value>
  <description>Directories where nutch plugins are located.  Each
  element may be a relative or absolute path.  If absolute, it is used
  as is.  If relative, it is searched for on the classpath.</description>
</property>


4.配置regex-urlfilter.txt
# accept anything else
+^http://([a-z0-9]*\.)*sohu.com/

这里主要是根据自己的条件来过滤不需要下载的链接

5.运行


如果需要solr就配置上 -solr http://localhost:8983/solr/
这个地址是solr服务的地址,需要先启动solr后才可配置,否则会报找不到solr服务的异常
否则可以忽略



配置完成后直接运行就可以了!
nutch1.3初步就配置完成了。
2
0
分享到:
评论
3 楼 youzhibing 2012-04-05  
运行出现了以下错误:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Generator.generate(Generator.java:538)
at org.apache.nutch.crawl.Generator.generate(Generator.java:443)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:132)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:58)
怎么解决
2 楼 wangwei3 2011-11-18  
coldsummerwei 写道
怎么只写了一半?

已经补充完全
1 楼 coldsummerwei 2010-12-27  
怎么只写了一半?

相关推荐

    nutch1.3在myclipse部署工程源码

    本教程将详细介绍如何在MyEclipse中部署Nutch1.3的工程源码。 首先,我们需要确保具备以下环境: 1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch...

    eclipse配置nutch,eclipse配置nutch

    本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    Nutch1.3开发环境

    配置好的Nutch1.3开发环境,解压后直接导入Eclipse Workspace即可,调试通过,默认爬163两层,解决Eclipse3.6+版本无基于源码创建工程选项问题

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件,对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的,遵循 ...

    在eclipse中部署nutch所缺的包

    在Eclipse中部署Apache Nutch时,可能会遇到缺少特定库文件的问题,这通常是由于Nutch的依赖管理没有完全覆盖所有必需的组件。本教程将详细解释如何解决在Eclipse环境中部署Nutch时遇到的关于MP3和RTF文件解析的缺失...

    Eclipse中编译Nutch-0.9

    本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...

    nutch-1.3源码

    Nutch-1.3 版本是该项目的一个稳定版本,主要由 Java 语言编写,提供了丰富的功能和良好的可扩展性。 在 Nutch-1.3 的源码中,我们可以深入理解其工作原理和核心组件。源码分析可以帮助我们掌握以下关键知识点: 1...

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    Windows下配置nutch

    - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java` 目录下的 `org` 文件夹复制到 Java 项目的 `src` 目录下。 - 将 `conf`, `lib`, `plugins` 目录复制到与 `src` ...

    Nutch搜索引擎·Eclipse开发配置(第4期)

    1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 ...1.2 Eclipse 开发 1.2.1 Solr 部署 1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合

    apache-nutch-1.3

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步... Nutch目前最新的版本为version1.3。

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    Nutch1.4_windows下eclipse配置图文详解.docx

    ### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...

    Nutch在Tomcat下的部署.doc

    Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,而Tomcat是一款流行的Java应用服务器,常用来部署Web应用程序。在本文中,我们将深入探讨如何在Tomcat环境下部署Nutch以及解决相关问题。 首先...

    windows7环境下配置nutch

    在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...

Global site tag (gtag.js) - Google Analytics