nutch 为何物,在这儿我就不做介绍了,因为google比我管用哈。
今天我来介绍一下,nutch1.2更新版本的eclipse导入进入编译开发,为二次开发nutch做准备。
主要有以下几步:
(一)安装cygwin,此步骤也很重要,不安装的话,会报环境错误。具体的安装过程google一下就ok了。
(二)下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project
from existing source",指向nutch目录。
(三) 下一步操作,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf"。
(四)继续操作:切换到"Order and Export"找到"conf",把它移到顶端。不用选择它。
(五)到"Source"将output folder设置为Nutch /bin/tmp_build,点击finish完成导入。
(六) 配置,配置文件:nutch-default.xml,nutch-site.xml,crawl-urlfilter.txt。
1) nutch-default.xml
修改此处:
<property>
<name>plugin.folders</name>
<value>./src/plugin</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
2) nutch-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>http.agent.name</name>
<value>wenda.tianya.cn</value>
<description>HTTP ‘User-Agent’ request header. </description>
</property>
<property>
<name>http.agent.description</name>
<value>wenda.tianya.cn</value>
<description>Further description of our bot- this text is used in the
User-Agent header.
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://wenda.tianya.cn/wenda/</value>
<description>A URL to advertise in the User-Agent header.
</description>
</property>
<property>
<name>http.agent.email</name>
<value>lsoba@gmail.com</value>
<description>An email address to advertise in the HTTP ‘From’ reques
header and User-Agent header.
</description>
</property>
</configuration>
3)crawl-urlfilter.txt
具体自己的情况而定 (可以google一下用法,网上有很清晰的说明)
(七) 创建urls目录 以及copy nutch-1.2.jar与nutch-1.2.job 到工作目录的要目录
(八) 运行crawl 可执行类
配置运行环境:
Program arguments:
urls -dir f:/index -depth 3 -topN 300
VM arguments:
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
欢迎大家拍砖!
分享到:
相关推荐
1. **导入项目**:在Eclipse中选择“File” > “Import” > “Existing Projects into Workspace”,然后浏览到下载的`nutch1.2+Project`目录,导入项目。 2. **添加库**:确保你的Eclipse环境中已经安装了Apache ...
总的来说,Nutch 1.2 是一个功能强大的网络爬虫框架,这个预配置的项目可以帮助开发者快速启动自己的网络数据采集任务,只需要补充缺失的插件即可开始你的网络爬虫之旅。通过深入学习和实践,你将能够掌握如何高效地...
4. **更好的文档支持**:Nutch 1.2的文档更加完善,帮助用户更好地理解和使用该项目。 五、使用Nutch 1.2 要使用Nutch 1.2,你需要先安装Hadoop环境,然后编译Nutch源码,配置相应的参数,设置爬取种子,启动爬虫,...
- 在 Default output folder 设置中,将输出目录更改为 `nutch1.2/bin/tmp_nutch`。 - 转到 Libraries 标签页,点击 Add Class Folder,选择 `nutch1.2/conf` 目录。 3. **调整库顺序**: - 在 Order and Export...
### Nutch 1.2 源码阅读深入解析 #### Crawl类核心作用与流程概览 在深入了解Nutch 1.2源码之前,我们先明确Nutch的架构和工作流程。Nutch作为一款开源搜索引擎框架,其功能涵盖网页抓取、索引构建以及查询处理。...
nutch1.2测试文档
这样,Eclipse就会将Nutch作为一个项目导入,便于后续的开发和管理。 #### 步骤2:添加源码文件夹 在项目创建后,你需要确保Nutch的所有源码文件夹都被正确地添加到Eclipse中。通过右键点击项目名,选择...
nutch官方简单案例,请版本是nutch-1.2.war
### Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
3.5 监控和调试:Eclipse提供了强大的调试工具,可以帮助开发者跟踪代码执行流程,找出潜在问题。同时,通过日志监控,可以了解爬虫的运行状态和抓取结果。 总结,Nutch爬虫结合Java和Eclipse,为开发者提供了一个...
Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...
尝试使用Nutch 0.9和IKAnalyzer 3.1.6GA组合,但由于版本兼容性问题导致失败,因此改用Nutch 1.2和IKAnalyzer 3.2.8,并将Tomcat升级到6.0.35版本。 在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,...
2. **索引导入**:Nutch抓取的网页数据可以通过Solr索引导入工具导入到Solr,建立搜索引擎索引。 3. **查询处理**:Solr 支持丰富的查询语法,如布尔逻辑、短语匹配、模糊查询等。 4. **结果排序**:Solr 可以根据...
- 选择“Source”选项卡,将默认输出目录从`nutch1.2/bin`修改为`nutch1.2/_bin`。 - 对于bin文件夹,可以通过右键点击“Team” > “Restore”来恢复其内容。 3. **添加JAR包** - 通过“Add JARs”功能,将`...
2. **URL管理**:Nutch 使用 URL 管理系统来跟踪已抓取的网页和待抓取的URL队列。URL通过种子列表开始,并根据链接关系进行扩展。 3. **网页抓取**:Nutch 使用 HTTP 协议抓取网页,支持多种编码格式,并且可以配置...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
然而,在实际使用过程中,由于编码问题,Nutch可能会出现部分网页乱码的情况。本篇文章将深入探讨这个问题,并提供具体的代码修复方案。 网页乱码通常是由于字符编码不匹配导致的。在Nutch中,当它抓取到不同编码...