Apache Nutch v2.3发布，Java实现的网络爬虫

1顶
0踩

2015-02-02 09:36 by 正式记者 yangshangchuan 评论(0) 有5428人浏览

nutch hadoop hbase 网络爬虫搜索引擎

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

Apache Nutch v2.3已经发布了，建议所有使用2.X系列的用户和开发人员升级到这个版本。

这个版本提供了一个基于Apache Wicket的Web管理界面，解决了143个问题，提供了Maven依赖，升级到Gora v0.5，支持的底层存储为：

Apache Hadoop 1.0.1 & 2.4.0
Apache Cassandra 2.0.2
Apache HBase 0.94.14
Apache Accumulo 1.5.1
MongoDB 2.12.2
Apache Solr 4.8.1
Apache Avro 1.7.6

同时请注意，Gora对SQL的支持已经过时了。

更多详细内容请看更新日志，下载地址，Nutch官网。

Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人。

Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中，产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速，极其火爆，尤其是Hadoop，其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本，Gora支持把大数据持久化到多种存储实现，Crawler Commons是一个通用的网络爬虫组件。

大数据这个术语最早的引用可追溯到Nutch。当时，大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在，大数据的含义已经被极大地发展了，业界将大数据的特性归纳为4个“V”。Volume数据体量巨大，Variety数据类型繁多，Value价值密度低，商业价值高，Velocity处理速度快。

Hadoop是大数据的核心技术之一，而Nutch集Hadoop之大成，是Hadoop的源头。学习Hadoop，没有数据怎么办？用Nutch抓！学了Hadoop的Map Reduce以及HDFS，没有实用案例怎么办？学习Nutch！Nutch的很多代码是用Map Reduce和HDFS写的，哪里还能找到比Nutch更好的Hadoop应用案例呢？

Nutch二次开发视频教程

来自: apache

分享到：

1
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Apache Nutch源代码

Nutch的创始人是Doug Cutting，他同时也... Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.

Apache Nutch v2.3 发布，Java实现的网络爬虫

Apache Nutch v2.3已经发布了，建议所有使用2.X系列的用户和开发人员升级到这个版本。这个版本提供了一个基于Apache Wicket的Web管理界面，解决了143个问题，提供了Maven依赖，升级到Gora v0.5，支持的底层存储为： ...

java nuth_Apache Nutch(Java搜索引擎工具) V2.3 官方版

Apache Nutch是一个开放源代码的Java搜索引擎框架，它提供了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。...

Apache网络爬虫框架nutch安装教程

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能...

nutch2.3 hadoop2.6.0 hbase0.98.8 分布式爬虫NoClassDefFoundError HBaseConfigurati

nutch2.3 hadoop2.6.0 hbase...分布式爬虫NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguratiException in thread "main" Java.lang.NoClassDefFoundError: org/apache/Hadoop/Hbase/HBaseConfigurati

走进 Apache Nutch (v1.14)

Apache Nutch 起源于 Apache Lucene 项目，是高可扩展性和高可伸缩性的开源 web 爬虫软件项目。项目主页： http://nutch.apache.org/ 出于底层数据存储多样性的设计，目前该项目在两个代码分支上持续开发，...

ant编译apache-nutch-2.3.1结合mysql实现爬虫

1 、安装ant（省略）目前官方2.x只提供了源码下载，不再提供编译的版本，需要用户自己去编译。2 下载nutch2.1 下载地址:...tar -zxvf apache-nutch-2.3.1-bin.tar.gz 2.2 下载so

Nutch2.3（二）

/** * Created by topsec on 2017/4/1. ...import java.io.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescr

Nutch爬虫配置及简单使用

1 引言 1.1 爬虫的基本分类爬虫基本可以分3类： ...Nutch是apache旗下的一个用Java实现的开源索引引擎项目，通过nutch，诞生了hadoop、tika、gora。Nutch的设计初衷主要是为了解决下述两个问题： ...

nutch2.3+hbase-0.94.27 单机爬虫入库初体验

首先介绍下环境：我是在vm上架设的虚拟机系统是centos7mini版的，编译...先去github下载nutch2.3的源码：https://github.com/apache/nutch/tree/branch-2.3 然后下载hbase http://apache.fayea.com/hbase/

【Nutch】Nutch-2.3 + HBase-0.94.14 + Solr-4.10.4 集成配置与安装

Nutch 是一个开源Java 实现的分布式网络爬虫。现在Nutch分为两个版本：1.x和2.x，这两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的，底层存储使用的是HDFS，而2.x通过使用Apache Gora，使得...

linux下nutch2.3安装和编译

首先从官网上下载nutch2.3. 安装前要现在linux系统中配置环境： jdk1.7 ant 要保证linux系统能够联网。 jdk和ant的安装方法，都是使用tar -zxvf xxxx解压缩之后，配置一下环境变量JAVA_HOME,...

基于HttpClient和JSoup的java网络爬虫

网络爬虫（Web Crawler），又称为网络蜘蛛（Web Spider）或 Web 信息采集器，是一种按照一定规则，自动抓取或下载网络信息的计算机程序或自动化脚本。网络爬虫本质上就是通过模拟浏览器的方式获取服务器数据。 ...

揭秘Java网络爬虫程序原理

如今互联网成为大量信息的载体，如何有效地从中提取有价值的信息并利用这些信息成为一个巨大的挑战爬虫，一个可怕的怪物，从百度、Google等搜索引擎公司诞生开始便有了它的身影，如今移动互联网时代爬虫更是猖狂，每...

nutch2.3 hadoop2.6.0 hbase0.98.8 分布式爬虫NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfigurati

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at org.apache.gora.hbase.store.HBaseStore.initialize(HBaseStore.java:114) at org.apache.gora.sto

Web Crawling and Data Miniing with Apache Nutch(翻译+学习心得)_01

笨小葱会在这两个月翻译完这本传说中的418元一本的神作。0.0.由于英语很烂，只能说个笨小葱理解的...Apache Nutch is an open source web crawler software that is used for crawling websites. It

Nutch2.3 + Hbase 配置到爬行

准备工作：JDK、Hbase、Ant、Nutch 安装JDK(JDK8) 如果你已经安装JDK跳过此步骤 $:cd /usr/local $:wget http://download.oracle.com/otn-pub/java/jdk/8u65-b17/jdk-8u65-linux-x64.tar.gz $:tar ...

爬虫nutch

爬虫，基本可以分三类： 1.分布式爬虫：Nutch ... nutch背景： Apache基金会主席Hadoop之父Doug Cutting，发起开源项目lucene、nutch、hadoop，同时在hadoop领域称之 hadoop之父。。通过nutch的一次

爬虫 - 开发网络爬虫应该怎样选择爬虫框架

有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类： 1.分布式爬虫：Nutch 2.JAVA单机爬虫：Crawler4j...

脆弱水印技术在图像篡改检测中的应用与挑战,脆弱水印技术在图像篡改检测中的应用与挑战,脆弱水印的图像篡改检测 ,脆弱水印; 图像篡改; 检测; 图像处理,基于脆弱水印的图像篡改检测技术

1顶0踩