最新文章列表

Nutch中MapReduce的分析

作者:马士华 Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ...
esteem 评论(0) 有1832人浏览 2008-10-20 17:55

nutch 初次接触

最近一直在看lucene,了解到了 nutch,也同时了解了下 hadoop。 要在windows平台上使用nutch、hadoop ,需要安装cygwin,这个工具的安装很多blog上面都有介绍。我就不详细说了。关键是大家在安装的时候 选择把openssh也安装上。 这里先只说说我是如何运行起nutch的。 首先说下我的目录结构 F:   cygwin/              bin      ...
esteem 评论(0) 有1154人浏览 2008-10-20 13:48

HBASE松散数据存储设计初识

<script>function StorePage(){d=document;t=d.selection?(d.selection.type!='None'?d.selection.createRange().text:''):(d.getSelection?d.getSelection():'');void(keyit=window.open('http://www.365key. ...
koolhazz 评论(0) 有607人浏览 2008-10-16 12:23

2008/10/13 links

merbcamp: http://merbist.com/ http://www.merboverheard.com/ http://rubypond.com/articles/2008/10/11/merbcamp---notes-from-the-edge/ http://rubypond.com/articles/2008/10/12/merbcamp---day-2/ http://chin ...
xxj 评论(0) 有1154人浏览 2008-10-13 09:18

从《李小龙传奇》看开源软件

最近迷上央视版的《李小龙传奇》,虽然还没有来得及看完,但我还是有很多感触,以往的李小龙电影重点都是如何用漂亮的动作击倒对手,如何惩恶扬 ...
banditjava 评论(2) 有1611人浏览 2008-10-07 22:30

hadoop的几点经验

1. 机器较多时, 编辑各个节点的/etc/hosts文件会很麻烦, 一般会架一个dns服务器进行解析. 2. 实现WritableComparable接口定义自己的写入方式时, 要注意hashCode()方法. 默认是使用Object.hashCode()这样的话, 会用对象的引用做为hashcode. Mapper会将相同key中hashCode()相同的聚在一起发送给Reducer. 比如Te ...
coderplay 评论(2) 有2720人浏览 2008-09-29 10:46

最近做的几个项目

1. 把libmmseg分词加了与lucene吻合的java接口,分词速度与c++版本接近, 已经和作者联系了.会在近期开源出去.     2. 用hadoop的mapreduce模型做了一个自动识别行业词的程序, 从算法上降低了计算量,而且分布式的话会更加快. 我用一份从51job, 智联招聘, 中华英才网等400多家招聘网站抓取的311万条职位语料做测试,5, 4元词词频在1000以上的正确率 ...
coderplay 评论(4) 有2716人浏览 2008-09-29 10:11

Nutch:一个灵活可扩展的开源web搜索引擎

在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。 报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch的组成 ...
banditjava 评论(8) 有2267人浏览 2008-09-28 11:46

搜索引擎名人堂之Doug Cutting

Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其构 ...
banditjava 评论(0) 有2640人浏览 2008-09-27 11:41

Nutch开源搜索引擎增量索引recrawl的终极解决办法

本文重点是介绍Nutch开源搜索引擎如何在Hadoop分布式计算架构上进行recrawl,也就是在解决nutch增量索引的问题。google过来的章中没有一个详细解释整个过程的,经过一番痛苦的研究,最后找到了最终解决办法。 先按照自己部署好的Nutch架构写出recrawl的shell脚本,注意:如果本地索引,就需要调用bash的 rm、cp等命令,如果HDFS上的索引,就需要调用hadoop d ...
banditjava 评论(6) 有5176人浏览 2008-09-26 19:12

基于Hadoop的Map reduce编程(一)

翻译的一篇国外的关于hadoop mapreduce的文章,文章比较长,先翻译第一部分吧 翻译者:pconlin900 博客:http://pconline900.iteye.com Hadoop是apache的一个开源的map-reduce框架,MapReduce是一个并行计算模型,用来处理海量数据。模型思想来源于google的Jeffrey Dean 和 Sanjay Ghemawat,包括 ...
pconline900 评论(2) 有2489人浏览 2008-09-25 14:29

关于Hadoop的MapReduce纯技术点文章

本文重点讲述Hadoop的整个MapReduce过程,不讲故事,不废话,重在描述每个环节。通过对google过来的文章一番苦读,我整了一些笔记,加入一些自己的看法 ...
banditjava 评论(0) 有3517人浏览 2008-09-24 18:10

MapReduce-免费午餐还没有结束?

Map Reduce - the Free Lunch is not over? 微软著名的C++大师Herb Sutter 在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concu ...
banditjava 评论(0) 有1485人浏览 2008-09-24 09:57

Hadoop中的集群配置和使用技巧── 分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就 ...
hengcai001 评论(0) 有519人浏览 2008-09-04 22:33

分布式计算开源框架Hadoop介绍 作者:岑文初 来源:InfoQ  

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志 ...
hengcai001 评论(0) 有631人浏览 2008-09-04 22:30

分布式计算开源框架Hadoop入门实践

Author :岑文初<o:p></o:p> Email: wenchu.cenwc@alibaba-inc.com<o:p></o:p> msn: cenwenchu_79@hotmail.com<o:p></o:p> blog: http://blog.csdn.net/cenwenchu79/<o:p>< ...
cenwenchu 评论(0) 有870人浏览 2008-08-29 12:03

HBASE松散数据存储设计初识

引<o:p></o:p> 最近关注Hadoop,因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目,也是对Google的BigTable的一种实现。     ...
cenwenchu 评论(0) 有1217人浏览 2008-08-08 11:30

Hadoop中的集群配置和使用技巧——分布式计算开源框架Hadoop入门实践(二)

这部分内容是分布式计算开源框架Hadoop入门实践的第二部分,讲述了关于实际使用配置的内容.第三部分是对于集群配置的测试结果分析的部分,下周三应该会在InfoQ刊登. http://www.infoq.com/cn/articles/hadoop-config-tip
cenwenchu 评论(0) 有931人浏览 2008-08-08 08:41

分布式计算开源框架Hadoop的学习(提纲)

  Author :岑文初<o:p></o:p> Email: wenchu.cenwc@alibaba-inc.com<o:p></o:p> msn: cenwenchu_79@hotmail.com<o:p></o:p> blog: http://blog.csdn.net/cenwenchu79/<o:p>& ...
cenwenchu 评论(0) 有835人浏览 2008-07-30 17:07

google支持

Google BigTable算法 MapReduce:超大机群上的简单数据处理Hadoop开源Google File System<nobr>-</nobr>
hengcai001 评论(0) 有404人浏览 2008-05-11 13:34

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics