`
zhanzhan02
  • 浏览: 69164 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

(连载文章)爬虫NUTCH 第二篇——简单配置(先睹为快)

阅读更多

具体照片:http://t.jobdu.com/thread-1559-1-1.html
假定我们要爬九度。

step1: 下载nutch和cygwin
http://apache.etoak.com//nutch/  找到nutch-1.0.tar.gz 


http://www.315safe.com/download/study/unix/12761.shtml


step2:nutch下配置

1、在nutch1.0文件夹下 添加一个文件 url.txt 里面填写 http://t.jobdu.com/

2、D:\develop\nutch-1.0\conf\crawl-urlfilter  最后2行改为:


# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/

# skip everything else
-.



step3:cygwin的使用

1、启动cygwin
2、输入pwd查看当前目录,我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录   pwd查看 如果显示 / 则表明到达根目录
4、cd /cygdirve/nutch-1.0的目录
5、收录信息
输入 bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10



step4:tomcat 下配置

1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问  http://localhost:8080/nutch-1.0/zh/



step5:考验下九度的seo

依次输入 求职、面试、招聘、计算机、程序员效果如下:主要看查询结构的总数量,(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。

分享到:
评论

相关推荐

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 是一个开源的Web爬虫项目,由Apache软件基金会维护。它被设计用来抓取互联网上的网页,并对其进行索引,以便进行后续的搜索和分析。Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元...

    nutch爬虫资料

    Nutch是一款开源的网络爬虫项目,主要用于抓取和索引互联网上的网页内容。它由Apache软件基金会开发,是Hadoop大数据生态系统的一部分,利用Java语言编写。本资料包围绕Nutch爬虫,提供了相关的参考书籍和源代码分析...

    eclipse配置nutch,eclipse配置nutch

    ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File > New > Project > Java project”,然后点击“Next”。在创建项目时,选择“Create project ...

    nutch1.7 爬虫

    一个已经部署好的 nutch1.7爬虫。 导入到 eclipse里面就能用了。假如不能用的话。 还是装个cygwin 吧 找到org.apache.nutch.crawl.Crawl 这个类。 run configuration 在 Programa argument 里面 输入 crawl urls -...

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...

    Nutch_的配置文件

    2. **Nutch的配置文件**:同样,有`Nutch-default.xml`和`Nutch-site.xml`。`Nutch-default.xml`包含Nutch的默认配置,提供了一系列用于爬取、解析、索引等操作的参数。`Nutch-site.xml`则是用户自定义的配置文件,...

    nutch爬虫+java+eclipse

    下面将详细介绍Nutch爬虫、Java语言在爬虫开发中的应用以及如何在Eclipse中配置和运行Nutch。 一、Nutch爬虫 Nutch 是Apache软件基金会的一个项目,它的设计目标是成为一个可扩展、高性能的网络爬虫。Nutch的核心...

    nutch爬虫说明文档

    Nutch 是一个开源的Web爬虫项目,主要设计用于构建大规模的搜索引擎。它提供了一种高效、可扩展的方式来抓取和索引互联网上的数据。Nutch 的灵活性在于它支持多种爬网策略,既可以用于爬行企业内部网络,也可以用于...

    nutch爬虫系统分析.doc

    nutch爬虫系统分析 Nutch爬虫系统是基于Java语言开发的一款开源网络爬虫框架,旨在提供一个灵活、可扩展、可靠的爬虫解决方案。下面是对Nutch爬虫系统的分析。 Nutch简介 Nutch是一款基于Java语言开发的网络爬虫...

    Nutch搜索引擎·Nutch简单应用(第3期)

    Nutch是一个基于Java开发的开源网络爬虫搜索引擎,它是Apache软件基金会项目之一,主要用于抓取网页,索引网页内容,并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制...

    Apache Nutch 网络爬虫.rar

    Nutch是一个开源的网络爬虫框架,由Apache基金会开发和维护。它能够高效地抓取并处理海量数据,并提供了丰富的插件来支持各种数据源和处理方式。由于其高度可定制化和易于扩展的特性,Nutch被广泛应用于搜索引擎、...

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的...希望这篇详述能对你配置Nutch的过程有所帮助。

    Windows下配置nutch

    Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: Crawler 负责抓取互联网上...

    nutch安装开发环境的配置

    Nutch 是一个开源的网络爬虫项目,用于抓取网页并建立索引。它与 Hadoop 紧密集成,支持大规模数据处理。在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载...

    nutch_1.4配置

    ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...

Global site tag (gtag.js) - Google Analytics