本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
hadoop的几点经验
1. 机器较多时, 编辑各个节点的/etc/hosts文件会很麻烦, 一般会架一个dns服务器进行解析.
2. 实现WritableComparable接口定义自己的写入方式时, 要注意hashCode()方法. 默认是使用Object.hashCode()这样的话, 会用对象的引用做为hashcode. Mapper会将相同key中hashCode()相同的聚在一起发送给Reducer.
比如Te ...
搜索引擎名人堂之Doug Cutting
Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其构 ...
基于Hadoop的Map reduce编程(一)
翻译的一篇国外的关于hadoop mapreduce的文章,文章比较长,先翻译第一部分吧
翻译者:pconlin900
博客:http://pconline900.iteye.com
Hadoop是apache的一个开源的map-reduce框架,MapReduce是一个并行计算模型,用来处理海量数据。模型思想来源于google的Jeffrey Dean 和 Sanjay Ghemawat,包括 ...
MapReduce-免费午餐还没有结束?
Map Reduce - the Free Lunch is not over?
微软著名的C++大师Herb Sutter
在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concu ...
搜索引擎名人堂之Jeff Dean
最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。
看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。
我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。
他曾参与了 go ...
Nutch开源搜索引擎的crawl日志分析及工作目录说明
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。
可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。
crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter ...
Hadoop--海量文件的分布式计算处理方案
作者:江南白衣,原文出处:http://www.blogjava.net/calvin/archive/2007/02/08/98688.html,转载请保留。
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, Map ...
第一个MapReduce任务
前两天在公司内网上搭了个2个节点hadoop集群,暂时没有多大实际意义,仅用作自己的测试。遇到的问题在阿里巴巴这位仁兄的《Hadoop集群配置和使用技巧
》都有提到的。也遇到了reduce任务卡住的问题,只需要在每个节点的/etc/hosts将集群中的机器都配置上即可解决。
今天将一个日志统计任务用Hadoop
MapReduce框架重新实现了一次,数据量并不大,每天分析一个2G多 ...