`
- 浏览:
41064 次
- 性别:
- 来自:
上海
-
最新评论
-
brada:
看这篇文章,不知道为啥作者不能做到起码的公正。举个例子哈: 2 ...
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
-
lies_joker:
monolithic 写道我这边用的是mmseg4j ,与最新 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
-
monolithic:
我这边用的是mmseg4j ,与最新的solr4.9结合,也挺 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
-
lies_joker:
东林碣石 写道我想问一下楼主,你们公司使用solr建的索引的规 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
-
东林碣石:
我想问一下楼主,你们公司使用solr建的索引的规模有多大?有几 ...
solr4.8的安装,配置,使用,搜索,推荐及看法
今天下午,总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在,一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求,心理历程不可谓不复杂。
nutch并不是很高深的技术,但是基于hadoop的mapreduce运算不禁让人生畏,敬而远之。我最初做采集的时候即用nutch,后来几经周折还是放弃。nutch是需要linux环境的,如果做二次开发,需要cygwin来模拟linux,这对不太需要的人来说略麻烦;nutch的采集机制是互联网爬虫,这方案对于小范围定向的采集来说,体量过于臃肿,速度也不够迅捷。我做工商数据采集的时候,就痛下决心,放弃了nutch,改用自己写的采集器。现在想来,是壮士断腕,有舍有得,虽然暂时放弃了学习nutch的机会,但加深了对互联网数据挖掘的认知。此后自己独立开发了一套分布式采集、数据分析、数据管理的系统。
去年一年,也看过几次nutch的源码,都是浅尝辄止。因为自己的系统已经相当成熟,就没有深入的研究nutch。当时正是用webdriver用得欢乐的时候,写了很多很酷的程序,学会很多不错的技能。无限怀念那段加班很high的写代码、在办公司做俯卧撑、在会议室用投影仪看视频的时光。
今年上半年以来,对solr等等有了更深入的研究和应用。逐渐认识到搭建一个海量的数据挖掘系统的重要性。其实自己写程序也能做到,但是应对这种庞大而杂乱的数据量,总是会有很多问题出现,这个时候,基于mapreduce的nutch的优势出来了,它就是擅于处理很多很杂的数据。给它个种子,它就没有尽头的按照你说的做下去。加上手头hadoop集群和solr服务器的完善,研究nutch逐渐提上日程。从六七月份断断续续的看,到这个月的深入研读。总算让它为我所用了。目前已经可以随意的对nutch二次开发,下一步是搭建nutch采集集群,形成自己的数据挖掘体系。
当然,这段开发,也让自己认识到有更多的东西需要学习和研究。首当其冲的是mapreduce,其次是mahout以及基于solr相似度的推荐机制。十月份,希望能把这块搞定,至少把mahout搭建起来,大量实战hadoop。
未完待续...
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
### Nutch 1.7 二次开发培训讲义知识点概览 #### 一、环境搭建与准备工作 **1. 开发环境的选择与配置** - **操作系统:** 二次开发Nutch 1.7时,开发阶段的操作系统选择相对灵活,只要确保安装了JDK和Eclipse即可。...
我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求
### Nutch 1.7 二次开发培训讲义之腾讯微博抓取分析 #### 一、概述 Nutch 是一个开源的网络爬虫项目,它提供了灵活的数据抓取能力,并支持二次开发定制功能。本篇培训讲义主要针对的是如何使用 Nutch 1.7 版本对...
开发者可以通过阅读源码理解其内部机制,并进行二次开发。 6. **Hadoop集成**:Nutch充分利用了Hadoop的分布式计算能力,将大型数据集的处理分布到多台机器上。Hadoop MapReduce框架用于处理大规模数据的索引和搜索...
#### 二、Nutch插件开发基础 为了更好地理解Nutch插件的开发过程,我们需要先了解几个关键的概念: 1. **Pluggable接口**:这是所有扩展点必须实现的一个通用接口,用于确定一个类是否能够作为插件集成到Nutch框架...
**二、Nutch的工作流程** Nutch的工作流程主要包括以下几个步骤: 1. **种子URL生成**:首先,你需要提供一组起始URL(种子),Nutch将从这些URL开始爬取。 2. **网页抓取**:Nutch使用高效的HTTP客户端库下载...
分布式搜索引擎Nutch开发详解 Nutch是一款开源的、基于Java实现的全文搜索引擎,它主要用于构建大规模的网络爬虫系统,并提供了对抓取的网页进行索引和搜索的功能。Nutch与Hadoop紧密集成,能够充分利用分布式计算...
完整的《Lucene+nutch搜索引擎开发》pdf版一共有83.6M,无奈我上传的上限是80M,所以切成两个。这个是副文件,还有个主文件http://download.csdn.net/detail/spring123tt/4361166 ,解压时,将两个文件放在一起解压...
下面,我们将详细讲解如何搭建Nutch的开发环境。 **步骤一:系统准备** 在开始搭建Nutch开发环境之前,你需要确保你的计算机满足以下基本要求: 1. 操作系统:Nutch可以在Linux、Mac OS X或Windows上运行,但推荐...
### 开发基于Nutch的集群式搜索引擎 #### Nutch背景知识与架构 Nutch是一款开源搜索引擎,使用Java语言编写,并且依赖于Lucene这一高性能全文搜索引擎库。自Nutch 0.8.0版本起,它完全运行在Hadoop平台上,这使...
学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍
本教程将详细介绍如何搭建Nutch 1.2的Web开发环境,因为从Nutch 1.3版本开始,Web界面部分已被移除。 首先,我们需要理解Nutch的工作流程,它主要包括五个主要步骤:抓取、解析、索引、查询和排名。Nutch提供了强大...
#### 二、Nutch插件机制的重要性 Nutch之所以采用插件机制,主要有以下三个原因: 1. **可扩展性**:通过插件,Nutch允许用户根据自己的需求轻松地扩展其功能。例如,可以通过编写一个新的解析器插件来处理特定...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。
Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于抓取、索引和搜索Web内容。作为初学者,了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...
《Lucene+Nutch搜索引擎开发:王学松源代码解析》 在信息技术日新月异的今天,搜索引擎已经成为了人们获取信息的重要工具。Lucene和Nutch是两个在开源社区广泛使用的搜索引擎技术,它们为开发者提供了构建高效、可...
Lucene nutch 搜索引擎开发 Part1
### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File > New > Project > Java project”,然后点击“Next”。在创建项目时,选择“Create project ...