`
carus
  • 浏览: 29469 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

ubuntu下nutch-1.2配置

 
阅读更多

1、下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project 
from existing source",指向nutch目录。

 

2、下一步操作,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf",继续操作:切换到"Order and Export"找到"conf",把它移到顶。

 

3、到"Source"将output folder设置为Nutch /bin/tmp_build,点击finish完成导入。

4、 配置文件:nutch-default.xml,nutch-site.xml,crawl-urlfilter.txt。
1) nutch-default.xml
修改此处:
<property>
  <name>plugin.folders</name>
  <value>./src/plugin</value> 
  <description>Directories where nutch plugins are located.  Each
  element may be a relative or absolute path.  If absolute, it is used
  as is.  If relative, it is searched for on the classpath.</description>
</property>

 

2)nutch-site.xml

在<configuration></configuration>中添加:

 

<property>

        <name>http.agent.name</name>

        <value>my nutch agent</value>

    </property>

    <property>

        <name>http.agent.version</name>

        <value>1.0</value>

 </property>

 

3)crawl-urlfilter.txt

删除:MY.DOMAIN.NAME

添加:+^http://([a-z0-9]*/.)*qq.com/

在nutch目录新建weburls.txt,并添加入口地址:http://www.qq.com

 

5、执行抓取

运行crawl 可执行类
       配置运行环境:
       Program arguments:
      bin/nutch crawl weburls.txt -dir localweb -depth 50 -topN 100 -threads 2

       VM arguments:
       -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

分享到:
评论

相关推荐

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

    nucth-1.2.part01 (该资源有10个包,共144M 完整nutch包 目录如下)

    Nutch是一个由Java实现的,...-rwx------+ 1 nutch-1.2.jar -rwx------+ 1 nutch-1.2.job -rwx------+ 1 nutch-1.2.war drwx------+ 61 plugins drwx------+ 10 src -rwx------+ 1 url.txt drwx------+ 8 webapps

    nutch-1.2.part07

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part05

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part03

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part10

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...

    nutch-1.2.part08

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...

    nutch-1.2.part09

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...

    nutch-1.2.part04

    Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜

    apache-nutch-1.5.1-bin.tar.gz

    Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...

    apache-nutch-2.3.1-src.tar.gz

    5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...

    Ubuntu_Nutch_.pdf

    ### IT知识点解析:Ubuntu下Nutch配置安装及使用详解 #### 一、环境搭建与配置 **1. Java环境安装** - **下载JDK**: 需要下载适合Ubuntu 10.0版本的JDK文件,本例中下载的是`jdk-6u24-linux-i586.bin.tar.gz`。 -...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    windows下nutch的安装配置以及与tomcat的集成.doc

    - 下载Nutch-1.2版本,解压至Cygwin目录下,如`G:\cygwin\nutch-1.2`。 **5. Nutch与Cygwin的集成** - 打开Cygwin命令行,使用`cd`进入Nutch目录,执行`bin/nutch`确认Nutch命令响应正常。 - 修改`nutch-1.2/...

    nutch-1.9 源码

    9. **配置文件**:Nutch的配置文件(如`conf/nutch-site.xml`)是其易用性的关键。通过修改这些配置文件,用户无需深入代码就能调整爬虫的行为。 10. **版本更新**:Nutch-1.9相较于早期版本,可能包含了性能优化、...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    - 复制`nutch-1.2`目录下的`lib`、`plugins`和`conf`三个文件夹至项目根目录下。 - 在项目属性中将`conf`文件夹添加到类路径中,并将`lib`文件夹中的所有JAR文件以及`plugins`目录下的`jar`文件添加到项目中。 - ...

Global site tag (gtag.js) - Google Analytics