具体照片:http://t.jobdu.com/thread-1559-1-1.html
假定我们要爬九度。
step1: 下载nutch和cygwin
http://apache.etoak.com//nutch/ 找到nutch-1.0.tar.gz
http://www.315safe.com/download/study/unix/12761.shtml
step2:nutch下配置
1、在nutch1.0文件夹下 添加一个文件 url.txt 里面填写 http://t.jobdu.com/
2、D:\develop\nutch-1.0\conf\crawl-urlfilter 最后2行改为:
# accept hosts in MY.DOMAIN.NAME
+^http://t.jobdu.com/
# skip everything else
-.
step3:cygwin的使用
1、启动cygwin
2、输入pwd查看当前目录,我们现在的任务是要能访问nutch文件夹下的信息
3、输入 cd / 返回当前目录的根目录 pwd查看 如果显示 / 则表明到达根目录
4、cd /cygdirve/nutch-1.0的目录
5、收录信息
输入 bin/nutch crawl url.txt -dir jiudu -depth 3 -threads 4 -topN 10
step4:tomcat 下配置
1、nutch1.0下的nutch-1.0.war拷贝到Tomcat 6.0\webapps 下
2、启动 tomcat
3、访问 http://localhost:8080/nutch-1.0/zh/
step5:考验下九度的seo
依次输入 求职、面试、招聘、计算机、程序员效果如下:主要看查询结构的总数量,(因为我们只爬了前十条记录)查询出了17条并且都是一样的说明九度的seo做得不错。
分享到:
相关推荐
Nutch 是一个开源的Web爬虫项目,由Apache软件基金会维护。它被设计用来抓取互联网上的网页,并对其进行索引,以便进行后续的搜索和分析。Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元...
Nutch是一款开源的网络爬虫项目,主要用于抓取和索引互联网上的网页内容。它由Apache软件基金会开发,是Hadoop大数据生态系统的一部分,利用Java语言编写。本资料包围绕Nutch爬虫,提供了相关的参考书籍和源代码分析...
### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File > New > Project > Java project”,然后点击“Next”。在创建项目时,选择“Create project ...
一个已经部署好的 nutch1.7爬虫。 导入到 eclipse里面就能用了。假如不能用的话。 还是装个cygwin 吧 找到org.apache.nutch.crawl.Crawl 这个类。 run configuration 在 Programa argument 里面 输入 crawl urls -...
nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...
2. **Nutch的配置文件**:同样,有`Nutch-default.xml`和`Nutch-site.xml`。`Nutch-default.xml`包含Nutch的默认配置,提供了一系列用于爬取、解析、索引等操作的参数。`Nutch-site.xml`则是用户自定义的配置文件,...
下面将详细介绍Nutch爬虫、Java语言在爬虫开发中的应用以及如何在Eclipse中配置和运行Nutch。 一、Nutch爬虫 Nutch 是Apache软件基金会的一个项目,它的设计目标是成为一个可扩展、高性能的网络爬虫。Nutch的核心...
Nutch 是一个开源的Web爬虫项目,主要设计用于构建大规模的搜索引擎。它提供了一种高效、可扩展的方式来抓取和索引互联网上的数据。Nutch 的灵活性在于它支持多种爬网策略,既可以用于爬行企业内部网络,也可以用于...
nutch爬虫系统分析 Nutch爬虫系统是基于Java语言开发的一款开源网络爬虫框架,旨在提供一个灵活、可扩展、可靠的爬虫解决方案。下面是对Nutch爬虫系统的分析。 Nutch简介 Nutch是一款基于Java语言开发的网络爬虫...
Nutch是一个基于Java开发的开源网络爬虫搜索引擎,它是Apache软件基金会项目之一,主要用于抓取网页,索引网页内容,并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制...
Nutch是一个开源的网络爬虫框架,由Apache基金会开发和维护。它能够高效地抓取并处理海量数据,并提供了丰富的插件来支持各种数据源和处理方式。由于其高度可定制化和易于扩展的特性,Nutch被广泛应用于搜索引擎、...
**Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的...希望这篇详述能对你配置Nutch的过程有所帮助。
Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: Crawler 负责抓取互联网上...
Nutch 是一个开源的网络爬虫项目,用于抓取网页并建立索引。它与 Hadoop 紧密集成,支持大规模数据处理。在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载...
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...