最新文章列表

hadoop的几点经验

1. 机器较多时, 编辑各个节点的/etc/hosts文件会很麻烦, 一般会架一个dns服务器进行解析. 2. 实现WritableComparable接口定义自己的写入方式时, 要注意hashCode()方法. 默认是使用Object.hashCode()这样的话, 会用对象的引用做为hashcode. Mapper会将相同key中hashCode()相同的聚在一起发送给Reducer. 比如Te ...
coderplay 评论(2) 有2724人浏览 2008-09-29 10:46

搜索引擎名人堂之Doug Cutting

Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其构 ...
banditjava 评论(0) 有2645人浏览 2008-09-27 11:41

基于Hadoop的Map reduce编程(一)

翻译的一篇国外的关于hadoop mapreduce的文章,文章比较长,先翻译第一部分吧 翻译者:pconlin900 博客:http://pconline900.iteye.com Hadoop是apache的一个开源的map-reduce框架,MapReduce是一个并行计算模型,用来处理海量数据。模型思想来源于google的Jeffrey Dean 和 Sanjay Ghemawat,包括 ...
pconline900 评论(2) 有2492人浏览 2008-09-25 14:29

关于Hadoop的MapReduce纯技术点文章

本文重点讲述Hadoop的整个MapReduce过程,不讲故事,不废话,重在描述每个环节。通过对google过来的文章一番苦读,我整了一些笔记,加入一些自己的看法 ...
banditjava 评论(0) 有3522人浏览 2008-09-24 18:10

MapReduce-免费午餐还没有结束?

Map Reduce - the Free Lunch is not over? 微软著名的C++大师Herb Sutter 在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concu ...
banditjava 评论(0) 有1487人浏览 2008-09-24 09:57

搜索引擎名人堂之Jeff Dean

最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。   看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。   我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。   他曾参与了 go ...
banditjava 评论(1) 有14981人浏览 2008-09-22 15:09

Nutch开源搜索引擎的crawl日志分析及工作目录说明

看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。 可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。 crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter ...
banditjava 评论(1) 有3872人浏览 2008-09-19 17:42

我的开源搜索引擎之路

    老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的 ...
banditjava 评论(39) 有25872人浏览 2008-09-11 15:41

接触Hadoop

     开始研究Hadoop,主要是为了完成课题。但现在的问题是Java还没弄得很清楚,而Hadoop又都是Java的东西,迷茫!      要研究Hadoop,先要学学Google的MapReduce,参考的就是GoogleMapReduce: Simplified Data Processing on Large Clusters(MapReduce:超大机群上的简单数据处理),到处可以下载到 ...
radarradar 评论(0) 有810人浏览 2008-09-08 20:54

HADOOP的学习笔记

Hadoop的学习笔记 Hadoop的下载地址: http://www.apache.org/dyn/closer.cgi/hadoop/core/ 1. Hadoop的应用场合: 适合海量数据的分析,其实Google最早提出MapReduce也就是为了海量数据分析。同时HDFS最早是为了搜索引擎实现而开发的,后来才被用于分布式计算框架中。海量数据被分割于多个节点,然后由每一个节点并行计算,将得出 ...
LIMIMGJIE 评论(0) 有3254人浏览 2008-09-05 16:35

Hadoop中的集群配置和使用技巧── 分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就 ...
hengcai001 评论(0) 有904人浏览 2008-09-04 22:33

Hadoop中的集群配置和使用技巧── 分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就 ...
hengcai001 评论(0) 有522人浏览 2008-09-04 22:33

分布式计算开源框架Hadoop介绍 作者:岑文初 来源:InfoQ  

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志 ...
hengcai001 评论(0) 有1757人浏览 2008-09-04 22:30

分布式计算开源框架Hadoop介绍 作者:岑文初 来源:InfoQ  

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志 ...
hengcai001 评论(0) 有634人浏览 2008-09-04 22:30

我们为什么要关注MapReduce?

1.什么是MapReduce?        MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 开发的一个针对大规模群组中 的海量数据处理的分布式编程模型。MapReduce实现了两个功能。Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。而 Reduce是把从两个或更多个Map中,通过多个线程,进程或者独立系统并行执行 ...
sole 评论(2) 有2721人浏览 2008-09-02 21:57

分布式计算开源框架Hadoop入门实践

Author :岑文初<o:p></o:p> Email: wenchu.cenwc@alibaba-inc.com<o:p></o:p> msn: cenwenchu_79@hotmail.com<o:p></o:p> blog: http://blog.csdn.net/cenwenchu79/<o:p>< ...
cenwenchu 评论(0) 有872人浏览 2008-08-29 12:03

Hadoop--海量文件的分布式计算处理方案

   作者:江南白衣,原文出处:http://www.blogjava.net/calvin/archive/2007/02/08/98688.html,转载请保留。       Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, Map ...
gaoyuntao2005 评论(0) 有1027人浏览 2008-08-28 13:18

第一个MapReduce任务

    前两天在公司内网上搭了个2个节点hadoop集群,暂时没有多大实际意义,仅用作自己的测试。遇到的问题在阿里巴巴这位仁兄的《Hadoop集群配置和使用技巧 》都有提到的。也遇到了reduce任务卡住的问题,只需要在每个节点的/etc/hosts将集群中的机器都配置上即可解决。    今天将一个日志统计任务用Hadoop MapReduce框架重新实现了一次,数据量并不大,每天分析一个2G多 ...
dennis_zane 评论(0) 有2789人浏览 2008-08-23 11:10

google支持

Google BigTable算法 MapReduce:超大机群上的简单数据处理Hadoop开源Google File System<nobr>-</nobr>
hengcai001 评论(0) 有771人浏览 2008-05-11 13:34

google支持

Google BigTable算法 MapReduce:超大机群上的简单数据处理Hadoop开源Google File System<nobr>-</nobr>
hengcai001 评论(0) 有406人浏览 2008-05-11 13:34

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics