`
qjwujian
  • 浏览: 16646 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
最近访客 更多访客>>
社区版块
存档分类
最新评论

nutch碰到failed with: Http code=403问题

阅读更多

      做毕业设计。打算做一个校园网的搜索引擎。

      下载了nutch1.2,然后做了一些配置试用了一下。

       第一步:在解压后的nutch1.2目录里面新建urls目录,然后在其目录下新建url.txt文件,然后在文件中写入我

要抓取网站的网址,http://www.ujs.edu.cn/

       第二步:在nutch1.2目录下新建logs目录,拿来存放日志文件。然后在下面新建test.log空白文件。

       第三步:进入conf目录,编辑nutch-site.xml文件,这个文件主要配置你的spider的一些信息。

     我的nutch-site.xml内容如下

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>http.agent.name</name>
<value>mynutch</value>
<description>test
</description>
</property>
<property>
<name>http.agent.description</name>
<value>spider</value>
<description> spider
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.xxx.com </value>
<description>http://www.xxx.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>test@gmail.com
</description>
</property>
</configuration>

   第四步:编辑conf下crawl-urlfilter.txt文件,找到“# accept hosts in MY.DOMAIN.NAME”

            这一行,然后把这一行下面紧接的一行改为"+http://www.ujs.edu.cn"

   第五步:我用的是ubuntu,所以进入shell,cd入nutch1.2目录,然后执行抓取命令:

          bin/nutch  crawl urls/url.txt  -dir crawled  >logs/test.log

          过了一分钟,就结束了抓取,但是却没有抓取到任何数据,日志如下:

    test.log

crawl started in: crawled
rootUrlDir = urls/url.txt
threads = 10
depth = 5
indexer=lucene
Injector: starting at 2011-04-18 20:19:19
Injector: crawlDb: crawled/crawldb
Injector: urlDir: urls/url.txt
Injector: Converting injected urls to crawl db entries.
Injector: Merging injected urls into crawl db.
Injector: finished at 2011-04-18 20:19:23, elapsed: 00:00:03
Generator: starting at 2011-04-18 20:19:23
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: crawled/segments/20110418201927
Generator: finished at 2011-04-18 20:19:28, elapsed: 00:00:05
Fetcher: Your 'http.agent.name' value should be listed first in 'http.robots.agents' property.
Fetcher: starting at 2011-04-18 20:19:28
Fetcher: segment: crawled/segments/20110418201927
Fetcher: threads: 10
QueueFeeder finished: total 1 records + hit by time limit :0
fetching http://www.ujs.edu.cn/
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=7
-finishing thread FetcherThread, activeThreads=4
-finishing thread FetcherThread, activeThreads=5
-finishing thread FetcherThread, activeThreads=6
-finishing thread FetcherThread, activeThreads=3
-finishing thread FetcherThread, activeThreads=2
-finishing thread FetcherThread, activeThreads=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0
fetch of http://www.ujs.edu.cn/ failed with: Http code=403, url=http://www.ujs.edu.cn/
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: finished at 2011-04-18 20:19:33, elapsed: 00:00:04
CrawlDb update: starting at 2011-04-18 20:19:33
CrawlDb update: db: crawled/crawldb
CrawlDb update: segments: [crawled/segments/20110418201927]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: true
CrawlDb update: URL filtering: true
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2011-04-18 20:19:36, elapsed: 00:00:02
Generator: starting at 2011-04-18 20:19:36
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.
LinkDb: starting at 2011-04-18 20:19:37
LinkDb: linkdb: crawled/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: adding segment: file:/home/hello/nutch-1.2/crawled/segments/20110418201927
LinkDb: finished at 2011-04-18 20:19:39, elapsed: 00:00:01
Indexer: starting at 2011-04-18 20:19:39
Indexer: finished at 2011-04-18 20:19:43, elapsed: 00:00:03
Dedup: starting at 2011-04-18 20:19:43
Dedup: adding indexes in: crawled/indexes
Dedup: finished at 2011-04-18 20:19:48, elapsed: 00:00:05
IndexMerger: starting at 2011-04-18 20:19:48
IndexMerger: merging indexes to: crawled/index
Adding file:/home/hello/nutch-1.2/crawled/indexes/part-00000
IndexMerger: finished at 2011-04-18 20:19:48, elapsed: 00:00:00
crawl finished: crawled
 

  发现里面出现了fetch of http://www.ujs.edu.cn/ failed with: Http code=403, url=http://www.ujs.edu.cn/错误

  我尝试了好几次都是这样,但是在浏览器中,打开http://www.ujs.edu.cn是能正常打开的,403错误表示没有权限读取

内容,我不明白为什么会出现这样的原因。网上搜了一下,也没搜到什么。谁能告诉我,我哪里弄错了?

 

分享到:
评论

相关推荐

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    windows下安装nutch

    在安装过程中,可以选择从本地目录安装,自定义安装路径和本地包目录,并根据需要选择安装所有程序,以避免后续问题。 4. **Nutch版本**:在例子中使用的是Nutch 0.8版本,但你应该从Apache Nutch的官方网站下载...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...

    Nutch,第1部分:爬行(译文)

    ( Nutch,第1部分:爬行(译文) ( Nutch,第1部分:爬行(译文)

    nutch2.2.1安装步骤.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...

    nutch的安装方法,好用

    ### Nutch 的安装方法详解 #### 一、前言 Nutch是一款开源的网络爬虫项目,基于Hadoop实现,可以抓取整个互联网,并且能够根据网页内容进行索引和检索。本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者...

    Web Crawling and Data Mining with Apache Nutch

    在这本书《Web Crawling and Data Mining with Apache Nutch》中,作者详细介绍了如何使用Nutch进行网络爬取和数据挖掘,包括Nutch的安装、配置、使用、以及一些高级功能的探讨。本书适合有一定编程背景的读者,尤其...

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    apache-nutch-2.3-src.zip

    Apache Nutch是一个开源的Web爬虫项目,用于抓取互联网上的网页并建立索引,是大数据和搜索引擎领域的重要工具。Nutch 2.3版本是其历史中的一个重要里程碑,提供了许多改进和优化,使得它在大规模数据处理和分布式...

    nutch开发资料 搜索引擎

    Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。这个开发资料压缩包包含了与Nutch相关的源代码和可能的配置文件,可以帮助开发者深入了解和学习Nutch的工作原理以及如何进行定制化开发。以下是...

    nutch帮助文档;nutch学习 入门

    Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于抓取、索引和搜索Web内容。作为初学者,了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...

    搭建nutch web开发环境

    本教程将详细介绍如何搭建Nutch 1.2的Web开发环境,因为从Nutch 1.3版本开始,Web界面部分已被移除。 首先,我们需要理解Nutch的工作流程,它主要包括五个主要步骤:抓取、解析、索引、查询和排名。Nutch提供了强大...

    nutch2.2.1-src

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,是大数据和搜索引擎技术的重要组成部分。Nutch 2.2.1 是该项目的一个稳定版本,包含了许多优化和改进。源码的提供使得用户可以深入理解...

Global site tag (gtag.js) - Google Analytics