工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说,其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤,日后需要时候也可以翻翻。
nutch分为爬虫和搜索器
1. 爬虫配置。
a) Nutch下载解压后(E:\java\CoreJava\IndexSearchAbout\nutch-1.0)
b) 创建crawled(存储爬取数据,包括索引)、urls/url.txt目录(里边的文本用来存储所需要爬取的网站url,每个url独立一行)
http://biaowen.iteye.com/
c) 修改配置文件conf/nutch-site.xml
<property>
<name>http.agent.name</name>
<value>b-crawler</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
d) Conf/crawl-urlfilter.txt里边些爬取规则,与urls/url.txt是对应的,比如url.txt里边有http://biaowen.iteye.com/,则crawl-urlfilter.txt需要添加相应规则
# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/
e) 配置就完成了,如果没有意外应该可以正常爬取
1). 打开cygwin
2). cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
3). bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
-dir(爬取数据存储目录) -depth(深度) - threads(线程,默认10) –topN(每个深度爬取前几个页面)
要特别需要注意一下,在爬取时候尽量保证进程里没有java.exe进程,要不你会产生很多莫名其妙的错误。因为有可能该java.exe正在操作nutch索引文件,当前爬取任务操作不了就会报错,当然了,如果你确定该java.exe进程不锁定索引文件,那就没有问题,自己体会吧。
分享到:
相关推荐
总结来说,Nutch 是一个强大的Web爬虫工具,它提供了丰富的配置选项和灵活的爬网策略。通过理解其工作原理和配置,你可以根据实际需求定制爬虫行为,有效地抓取和处理网络数据。无论是对企业内部网的监测,还是对...
1. **配置与种子URL**:Nutch需要配置爬虫的范围,如允许爬取的域名和排除的域名。种子URL是爬虫开始爬取的初始网址集合。 2. **爬取(Fetch)**:Nutch通过HTTP协议下载网页,并将它们保存到本地。 3. **解析...
Nutch通过这些命令能够实现复杂的网络爬虫功能,并通过参数的灵活配置来满足不同场景下的爬取需求。值得注意的是,为了使Nutch能够正常运行,用户需要配置一系列的XML配置文件,包括但不限于hadoop-default.xml、...
Nutch 是一个开源的Web爬虫系统,专为大规模网络数据收集而设计,它被广泛应用于搜索引擎、学术研究以及大数据分析等领域。这篇毕业论文详细分析了Nutch爬虫系统的各个方面,旨在深入理解其工作原理和架构。 1. ...
通过研究这个Nutch工具包,开发者可以了解到Nutch的架构设计,如何配置和运行爬虫,以及如何处理抓取的数据。这对于开发自己的网络爬虫系统或者在现有基础上进行定制化开发非常有帮助。同时,Nutch的源代码也可以...
1. **文档阅读**:深入了解 Nutch 需要阅读官方提供的文档,如 "Introduction to Nutch, Part 1 Crawling" 和 "Introduction to Nutch, Part 2 Searching",以及源代码。Nutch 的源码结构清晰,便于理解和学习。 2....
1. **Crawldb**:Crawldb 是 Nutch 存储已抓取 URL 的数据库,记录每个 URL 的状态,如已抓取、待抓取或已忽略。 2. **Linkdb**:Linkdb 存储了 URL 之间的链接关系,有助于确定网页的重要性,并为爬虫提供抓取顺序...
具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...
1. **Nutch的衍生项目**:Nutch不仅仅是一个独立的项目,它的研究和发展过程中孕育出了多个重要的开源项目,包括Hadoop、Tika和Gora。这表明Nutch在大数据处理和搜索引擎技术领域具有深远的影响。 - **Hadoop**:...
《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...
1. **配置Nutch**: 首先,你需要确保Nutch已经正确安装并且配置完毕,包括设置爬虫的种子URL、配置抓取策略(如Crawl Interval)以及存储路径等。 2. **执行抓取**: 使用Nutch的`bin/nutch crawl`命令启动抓取过程...
- **配置**:要深入了解Nutch的配置细节,可以通过研究`nutch-default.xml`文件中的各项配置选项。这个文件包含了Nutch的默认配置,通过结合源代码阅读,可以更深刻地理解每个配置项的具体作用。 - **定制**:要...
10. **爬取日志**:Nutch 记录详细的爬取日志,帮助分析和调试爬虫过程中的问题。 在实际使用Nutch 1.6时,用户通常会按照以下步骤操作: 1. **配置Nutch**:设置相应的配置文件,如`conf/nutch-site.xml`,指定...
此外,Nutch 的配置文件如 `nutch-site.xml` 是至关重要的,它定义了 Nutch 的各种参数,如抓取策略、解析器设置等,根据实际需求调整这些配置可以优化爬虫性能。 总的来说,Nutch 是一个强大的Web抓取和索引工具,...
1. **网络爬虫框架**:Nutch 提供了一个完整的爬虫框架,包括种子 URL 的管理、网页的抓取、下载、解析、存储等环节。通过源码,我们可以学习如何设计和实现大规模数据的爬取流程。 2. **URL 管理**:Nutch 使用 ...
Apache Nutch 是一个开源的网络爬虫框架,用于构建大规模的全文搜索引擎。Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 ...
总的来说,`Crawl` 类是 Nutch 抓取工作的核心,它负责解析命令行参数、配置抓取任务并启动爬虫。通过理解和分析 `Crawl` 类的源码,开发者可以更好地掌握 Nutch 如何处理输入,以及如何根据这些输入配置和执行复杂...
1. **配置Nutch**:设置Nutch的配置文件(conf/nutch-site.xml),指定Lucene的相关参数,如索引存储位置、Analyzer类型等。 2. **编写插件**:如果需要自定义处理逻辑,可以编写Nutch插件,如自定义Analyzer或索引...
- **Crawldb**: 记录爬虫状态和进度的信息库。 - **Linkdb**: 存储网页链接及其相关信息的数据库。 - **Segments**: 存储爬虫抓取结果的分段文件夹。 - **Index**: 索引数据的存储结构。 #### 7. Nutch 分布式文件...