-
nutch出现failed code 403错误,我找不到原因?10
做毕业设计。打算做一个校园网的搜索引擎。
下载了nutch1.2,然后做了一些配置试用了一下。
第一步:在解压后的nutch1.2目录里面新建urls目录,然后在其目录下新建url.txt文件,然后在文件中写入我
要抓取网站的网址,http://www.ujs.edu.cn/
第二步:在nutch1.2目录下新建logs目录,拿来存放日志文件。然后在下面新建test.log空白文件。
第三步:进入conf目录,编辑nutch-site.xml文件,这个文件主要配置我的spider的一些信息。
我的nutch-site.xml内容如下
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>http.agent.name</name>
<value>mynutch</value>
<description>test
</description>
</property>
<property>
<name>http.agent.description</name>
<value>spider</value>
<description> spider
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.xxx.com </value>
<description>http://www.xxx.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>test@gmail.com
</description>
</property>
</configuration>第四步:编辑conf下crawl-urlfilter.txt文件,找到“# accept hosts in MY.DOMAIN.NAME”
这一行,然后把这一行下面紧接的一行改为"+http://www.ujs.edu.cn"
第五步:我用的是ubuntu,所以进入shell,cd入nutch1.2目录,然后执行抓取命令:
bin/nutch crawl urls/url.txt -dir crawled >logs/test.log
过了一分钟,就结束了抓取,但是却没有抓取到任何数据,日志如下:
test.log
crawl started in: crawled
rootUrlDir = urls/url.txt
threads = 10
depth = 5
indexer=lucene
Injector: starting at 2011-04-18 20:19:19
Injector: crawlDb: crawled/crawldb
Injector: urlDir: urls/url.txt
Injector: Converting injected urls to crawl db entries.
Injector: Merging injected urls into crawl db.
Injector: finished at 2011-04-18 20:19:23, elapsed: 00:00:03
Generator: starting at 2011-04-18 20:19:23
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: crawled/segments/20110418201927
Generator: finished at 2011-04-18 20:19:28, elapsed: 00:00:05
Fetcher: Your 'http.agent.name' value should be listed first in 'http.robots.agents' property.
Fetcher: starting at 2011-04-18 20:19:28
Fetcher: segment: crawled/segments/20110418201927
Fetcher: threads: 10
QueueFeeder finished: total 1 records + hit by time limit :0
fetching http://www.ujs.edu.cn/
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=7
-finishing thread FetcherThread, activeThreads=4
-finishing thread FetcherThread, activeThreads=5
-finishing thread FetcherThread, activeThreads=6
-finishing thread FetcherThread, activeThreads=3
-finishing thread FetcherThread, activeThreads=2
-finishing thread FetcherThread, activeThreads=1
-activeThreads=1, spinWaiting=0, fetchQueues.totalSize=0
fetch of http://www.ujs.edu.cn/ failed with: Http code=403, url=http://www.ujs.edu.cn/
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: finished at 2011-04-18 20:19:33, elapsed: 00:00:04
CrawlDb update: starting at 2011-04-18 20:19:33
CrawlDb update: db: crawled/crawldb
CrawlDb update: segments: [crawled/segments/20110418201927]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: true
CrawlDb update: URL filtering: true
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2011-04-18 20:19:36, elapsed: 00:00:02
Generator: starting at 2011-04-18 20:19:36
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.
LinkDb: starting at 2011-04-18 20:19:37
LinkDb: linkdb: crawled/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: adding segment: file:/home/hello/nutch-1.2/crawled/segments/20110418201927
LinkDb: finished at 2011-04-18 20:19:39, elapsed: 00:00:01
Indexer: starting at 2011-04-18 20:19:39
Indexer: finished at 2011-04-18 20:19:43, elapsed: 00:00:03
Dedup: starting at 2011-04-18 20:19:43
Dedup: adding indexes in: crawled/indexes
Dedup: finished at 2011-04-18 20:19:48, elapsed: 00:00:05
IndexMerger: starting at 2011-04-18 20:19:48
IndexMerger: merging indexes to: crawled/index
Adding file:/home/hello/nutch-1.2/crawled/indexes/part-00000
IndexMerger: finished at 2011-04-18 20:19:48, elapsed: 00:00:00
crawl finished: crawled发现里面出现了fetch of http://www.ujs.edu.cn/ failed with: Http code=403, url=http://www.ujs.edu.cn/错误
我尝试了好几次都是这样,但是在浏览器中,打开http://www.ujs.edu.cn是能正常打开的,403错误表示没有权限读取
内容,我不明白为什么会出现这样的原因。网上搜了一下,也没搜到什么。谁能告诉我,我哪里弄错了?
问题补充:<div class="quote_title">小卓SUN 写道</div><div class="quote_div">Your 'http.agent.name' value should be listed first in 'http.robots.agents' property. <br /> <br />403有十几种可能,你要把客户端属性配置进去,不然他不认你,就会禁止访问</div> <br />谢谢你回答,我刚才把http.robots.agents属性改了,没有出现以上的错误了,但是还是failed code 403.2011年4月18日 20:32
相关推荐
确保所有必要的库都已经被正确地添加到项目的Classpath中,包括`conf`文件夹,以避免运行时的类找不到异常。 ### 结论 通过上述步骤,你可以在Eclipse中成功配置并运行Nutch,从而利用其强大的网络爬取和数据处理...
运行`bin/nutch`命令,如果没有错误提示,说明Nutch已经成功安装。 8. **Nutch的配置**:安装完成后,你需要根据需求配置Nutch的配置文件,通常位于`conf`目录下,如`nutch-site.xml`。这些配置包括爬虫的种子URL、...
**Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发,并且是 Hadoop 的一部分,这意味着它能够利用分布式计算来处理大规模的数据抓取任务。...
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
Nutch是Apache软件基金会开发的一款开源的网络爬虫项目,主要用于收集、索引和搜索互联网上的数据。这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务...
对于初学者而言,了解Nutch的架构,熟悉其爬虫机制,以及掌握如何利用Nutch进行网页抓取和数据分析,都是不可或缺的学习内容。 通过Eclipse编译Nutch-1.0不仅是一次技术实践,更是深入理解开源软件开发流程的机会。...
- 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
- `job failed` 错误:检查 JVM 版本是否符合 Nutch 要求,并确认配置文件正确无误。 #### 六、总结 通过上述步骤,开发者可以在 MyEclipse 8.5 中成功导入 Nutch 1.2 源码,并进行简单的测试。这种方式为开发者...
6. **监控与维护**:定期检查Nutch系统的运行状态,处理可能出现的错误或性能瓶颈,优化爬虫策略和索引质量。 #### 灵活性与可扩展性 Nutch的设计充分考虑了灵活性与可扩展性,使其不仅适用于大规模的全球Web搜索...
Nutch 的日志信息现在被默认输出到 `/logs` 目录下,除非在配置文件中将 `fetcher.verbose` 设置为 `true`。Luke 工具对于查看和理解索引内容非常有用,而 Nutch 在 Windows 上运行需要借助 Cygwin。此外,Nutch 0.8...
虽然Nutch插件可以通过命令行工具构建,但在Eclipse中使用Ant构建插件具有一定的优势,如错误检查、调试便利等。为了在Eclipse中使用Ant构建Nutch插件,需要确保Eclipse已安装Ant插件,然后按照以下步骤操作: 1. *...
Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...
Nutch的发展历程中出现了两个主要的分支版本:1.X和2.X,它们之间最大的区别是2.X版本对底层数据存储进行了抽象,以支持更广泛的存储技术,这使得Nutch可以适应更多样的大数据存储需求。 Nutch项目背后的关键人物是...
1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 ...
- 查看Nutch的工作日志,确保没有错误发生。 - 如果出现任何问题,请参考官方文档或社区资源进行排查。 #### 六、结语 通过以上步骤,你已经成功地在Windows系统上安装了Nutch,并对其进行了基本配置。Nutch是一...