资讯月刊下载
[互联网] Apache Nutch v2.3发布,Java实现的网络爬虫
Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为: Apache Hadoop 1.0.1 & 2.4.0 Apache Cassandra 2.0.2 Apache HBase 0.94 ...
[开源软件] Apache Nutch v1.8发布,Java实现的网络爬虫
Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了1.4版本,同时还修复了35个BUG,提供了18项改进。详细内容请看更新日志,下载地址,Nutch官网。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro ...
[开源软件] Nutch:从搜索引擎到网络爬虫——开源力量公开课第31 ...
开源力量公开课第31期课程题目——Nutch:从搜索引擎到网络爬虫 开课时间:2013年9月17日 19:00 - 21:30 现场或线上参课: 现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与) 线上直播(免费):邮件报名后将即时提供线上参课网址 现场或线上参课:htt ...
[开源软件] 国内首套免费的《Nutch相关框架视频教程》上线
Nutch是一个Java开源项目,拥有近十年的历史,从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大数据和云计算的代名词。 本人拥有多年Nutch相关框架研发经验,顺应云计算大数据的浪潮,推出了国内首套免费的《Nutch相关框架视频教程》。 ...
[企业架构] Apache Nutch 1.6发布,基于Java的搜索引擎
Apache Nutch团队近日发布了Nutch 1.6版本。 Nutch是一个开源的、基于Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 该版本修复了大量的bug,同时添加、改进了一些功能: 新的HostNormalizer,允许通过MIME类型动态设置fetchInterval 针对Indexer API的功能性增强,包括URL标准 ...