`

Apache Nutch v1.8发布,Java实现的网络爬虫

阅读更多

Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了1.4版本,同时还修复了35个BUG,提供了18项改进。详细内容请看更新日志下载地址Nutch官网

 

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

 

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

 

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

 

大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。

 

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

 

 

 

 

 

 

 

分享到:
评论
1 楼 ccuizhou 2014-07-22  
杨大师,你好,我是个初学者,问你个问题, 就是nutch在 0.9版本以后 从webapp模式变成了了类似于组件的模式,之前还用lucenc 可以很直观的体验 网络爬取数据以后的结果。  现在貌似只能爬取和分析, 没有直观的一个搜索界面出来了, 这点, 是怎么回事呢, 有什么方法在0.9版本以后可以弥补么, 还是nutch把这个搜索展现的项目打包到了别的项目上。

相关推荐

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...

    nutch使用文档

    Nutch 是一个开源的网络爬虫工具,使用 Java 语言编写,主要用于爬取和索引互联网上的网页。下面是 Nutch 的使用方法和相关知识点。 Nutch 搭建过程 Nutch 的搭建过程主要包括准备工作、安装 Linux 系统、安装 JDK...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...

    Nutch安装配置

    1. **Java环境**:Nutch是用Java编写的,因此首先确保系统上安装了Java Development Kit (JDK),并且版本至少为1.8。设置好`JAVA_HOME`环境变量,以便Nutch可以正确识别Java环境。 2. **获取Nutch源码**:从Apache ...

    搜索引擎nutch配置

    在开始Nutch配置之前,确保你已安装了Java运行环境(JRE)和Java开发工具(JDK),版本至少为1.8。同时,你需要一个支持Hadoop的环境,如Hadoop单机模式或伪分布式模式。如果你打算使用Solr或Elasticsearch作为检索...

    搭建nutch web开发环境

    1. **Java环境**:Nutch基于Java,所以首先确保你的系统已经安装了JDK 1.8或更高版本,并设置了相应的环境变量。 2. **Maven**:Nutch的构建工具是Maven,用于管理和构建项目。请确保你已经安装了Maven并配置好`M2_...

    Hadoop 权威指南(中文前三章)

    - **网页爬虫**: 介绍了Hadoop如何支持Nutch搜索引擎的网页爬虫功能。 **14.4 Hadoop用于Rackspace的日志处理** - **日志分析**: 说明了Hadoop如何处理Rackspace的大量日志数据。 **14.5 Cascading项目** - **...

Global site tag (gtag.js) - Google Analytics