准备为公司内网配置一个搜索引擎,千挑万选之下总算定位到nutch上了,不用luenuc是因为nutch已经实现了他的功能,而来他没有crawl 爬虫,得自己配置爬虫,有点太麻烦,nutch再适合不过了,之前看过许多nutch的文章,从大概内容上来看配置错误居多,感觉很难配置正确,且容易出错,后来,好不容易配置成功了,ok,虽然说cynwiin不好用,unix格式,但是却也容易,这个玩意开始安装时安装文件竟然500多k,窃喜,看介绍,大概是win下虚拟unix环境,所以,有点不接,隐隐约约感到不同,怀着忐忑不安的心情开始安装,果然,到了第三步,原来真正的安装文件要从网上下载,我们这1m+4台机子的网速,晕了,算了,上网搜,有下载文件一看,我的乖乖500多兆啊,下吧,迅雷打开,就开始下载了,大概下了1-2个小时,这玩意下载完毕,安装,到挺快的,打开,根据网上的配置,一切ok,nutch安装也成功了,呵呵。
满以为万事大吉了,谁想到一个配置错误让我木銮了2-3个小时,当我配置好各种参数进行索引的时候,发现索引速度非常快,不到1分钟就索引完毕了,不对啦,速度也不能这样快啊,我们整个网络再说也有好几百兆的东西,下来一看索引大小总共才3k多,我哭,怎么回事,反正今天上午没搞定,还延长了半个小时时间,后来回去,一下喽,突然想起,对了,网站原来给弄了个保密的登陆【这是变态的保密员想起来的,说什么公司内网访问要输入密码才可以】,后来想了一下,如果抓去url设置成http://www.qxxxxxa.com/ 会被定向到一个登陆页面,明白了,所以索引就结束的快,再者,nutch默认好像不会抓去url带参数这种比如如果含有 "?" 这种字符会被过滤掉,怎么办,反正官方网站是看来找不到答案了,就算找到,也会大费周折,算了,还是google吧,google了无数结果,也实验了无数次,也许是功到自然成吧,终于找到一个可用的实验,把抓去url设置成 http://www.apache.org/发现apache下各种子站点和文件都开始索引了,看着每个线程慢慢增长,我心里有一种如释重负的满足感,于是把规则改到内网,抓去,ok,我信息的看到,各种站点,子站点都开始被抓去了,10个线程在一个4核的cpu上慢慢跑吧,呵呵
总结起来,使用nutch配置一共需要注意以下几点
a. 配置抓去url 在conf/crawl-urlfilter.txt 文件里头
b. 配置几个http选项 主要在 nutch-default.xml 和 nutch-site.xml里面
c. 配置cynwin环境在windows下使用nutch 必须
d. 在nutch下新建目录 作为存放被抓去主要url的文件,文件不必有扩展名
e. 在tomcat下部署nutch会乱码,修复乱码问题
f. nutch api 的使用 ... ...
分享到:
相关推荐
本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...
nutch配置nutch-default.xml
**Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...
### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
在Windows环境下配置Apache Nutch是一项复杂但至关重要的任务,它涉及到搜索引擎的基础构建,特别是对于那些需要自建数据抓取和索引系统的项目。Nutch是一个开源的网络爬虫项目,它能够高效地抓取互联网上的网页,并...
在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...
Nutch 配置涉及的是一个开源的网络爬虫项目,它与Hadoop相结合,用于大规模的网页抓取和索引。Nutch 1.6是该项目的一个版本,这个版本的配置过程主要涵盖以下几个步骤: 1. **下载Nutch源代码**:首先,你需要从...
### Nutch配置详解 #### 一、Nutch简介与配置准备 **Nutch**是一款开源的Web爬虫项目,能够帮助用户抓取互联网上的网页数据并进行内容分析。本篇文章将详细解读《Nutch配置[汇编].pdf》文档中的关键步骤及知识点。...
### nutch10配置(解决代理问题) #### 知识点概述 在处理网络爬虫时,遇到代理问题是非常常见的。对于Nutch这样的开源爬虫框架来说,正确配置代理是确保能够顺利抓取互联网资源的关键步骤之一。本文将详细介绍...
- 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常需要更改,避免被服务器识别为恶意爬虫。 - `crawl-...
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
Nutch 的搭建过程主要包括准备工作、安装 Linux 系统、安装 JDK、配置 Nutch 创建索引、安装 Tomcat 和配置 Nutch 查询索引等步骤。 准备工作 在开始搭建 Nutch 之前,需要准备一个 Linux 操作系统和 JDK 环境。...