1、下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project
from existing source",指向nutch目录。
2、下一步操作,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf",继续操作:切换到"Order and Export"找到"conf",把它移到顶。
3、到"Source"将output folder设置为Nutch /bin/tmp_build,点击finish完成导入。
4、 配置文件:nutch-default.xml,nutch-site.xml,crawl-urlfilter.txt。
1) nutch-default.xml
修改此处:
<property>
<name>plugin.folders</name>
<value>./src/plugin</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
2)nutch-site.xml
在<configuration></configuration>中添加:
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
3)crawl-urlfilter.txt
删除:MY.DOMAIN.NAME
添加:+^http://([a-z0-9]*/.)*qq.com/
在nutch目录新建weburls.txt,并添加入口地址:http://www.qq.com
5、执行抓取
运行crawl 可执行类
配置运行环境:
Program arguments:
bin/nutch crawl weburls.txt -dir localweb -depth 50 -topN 100 -threads 2
VM arguments:
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
分享到:
相关推荐
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch官方简单案例,请版本是nutch-1.2.war
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
Nutch是一个由Java实现的,...-rwx------+ 1 nutch-1.2.jar -rwx------+ 1 nutch-1.2.job -rwx------+ 1 nutch-1.2.war drwx------+ 61 plugins drwx------+ 10 src -rwx------+ 1 url.txt drwx------+ 8 webapps
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...
Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...
### IT知识点解析:Ubuntu下Nutch配置安装及使用详解 #### 一、环境搭建与配置 **1. Java环境安装** - **下载JDK**: 需要下载适合Ubuntu 10.0版本的JDK文件,本例中下载的是`jdk-6u24-linux-i586.bin.tar.gz`。 -...
nutch配置nutch-default.xml
- 下载Nutch-1.2版本,解压至Cygwin目录下,如`G:\cygwin\nutch-1.2`。 **5. Nutch与Cygwin的集成** - 打开Cygwin命令行,使用`cd`进入Nutch目录,执行`bin/nutch`确认Nutch命令响应正常。 - 修改`nutch-1.2/...
- 复制`nutch-1.2`目录下的`lib`、`plugins`和`conf`三个文件夹至项目根目录下。 - 在项目属性中将`conf`文件夹添加到类路径中,并将`lib`文件夹中的所有JAR文件以及`plugins`目录下的`jar`文件添加到项目中。 - ...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...