- 浏览: 888242 次
- 性别:
- 来自: 杭州
最新评论
-
u013146595:
楼主你人呢,搬家了吗。还想看你的文章
读代码的“深度优先”与“广度优先”问题 -
zjut_ywf:
写的不错,比书上还具体,受益匪浅
MapReduce:详解Shuffle过程 -
sxzheng96:
seandeng888 写道Combiner阶段应该是在Par ...
MapReduce:详解Shuffle过程 -
sxzheng96:
belivem 写道你好,大神,我也是这一点不是很清楚,看了你 ...
MapReduce:详解Shuffle过程 -
jinsedeme0881:
引用77 楼 belivem 2015-07-11 引用你 ...
MapReduce:详解Shuffle过程
文章列表
国内技术人员与国外技术人员差多远
- 博客分类:
- 其它
早上同事问到这个问题,回答时顺道总结了我以往的一些看法。这个问题我以前就问过我自己,在接触过很多不同的技术人员后,慢慢形成一些观点。不一定对,权当记录吧。
我是感觉国内的技术人员(99%)与国外技术人员之 ...
如何查找与定位问题
- 博客分类:
- 问题总结
- troubleshooting
借着最近有些时间的机会,分享一个主题:《如何查找与定位问题》
这里总结的是过去几年工作之中,我所遇到的查找问题的思路与一些有用的工具。从我的经验来看,可以解决80%的online问题。当然,重在运维方向,基本没有涵盖软件bug。
内容大纲
没有PPT,没有文章,只是把相关的内容写到XMind里,如果有感兴趣的话题,可以与我讨论
对Hadoop的SWOT分析
- 博客分类:
- mapreduce
在当前大数据研究与应用如火如荼的时代,Hadoop毅然成为业界的翘楚。我想本着客观的态度,从旁观者的角度分析当前Hadoop所面对的机遇与挑战。在我的认识中,SWOT分析还算全面,所以就选择这样的分析思路。当然,我分析Hadoo ...
长久以来,说起Hadoop,大家只会想到它能承担offline系统的分析工作。的确,它在这个方面做的是很优秀了。如果有人说:Hadoop也可以担当online系统的一部分呀!我们可能就会替这个人悲哀了,是吧?为了更好地认识Hadoop的 ...
系统运行在QA或产品环境上才是真正考虑我们程序员的时候。QA和OP看到任何异常时会求助于我们,然后我们经常的动作可能是:询问QA和OP问题出现的症状,登录到服务器上,查看日志和环境,分析问题。长此以往,发现自 ...
下面所描述的内容是根据实际需要对BufferedReader的小改进,并提供一张简图来说明所做的修改。如有更方便的方式请回帖或联系dennyy99@gmail.com给予明示,谢谢
如果需要对文件内容建索引,就可能需要每行数据的起始偏移量。下图是文件内容索引的简明结构,目标是为了引出我们对行级偏移量的需求
我们平时都是用BufferedReader来读取行内容,如果在它的基础上能提供行级偏移量岂不更好嘛,因此动手对BufferedReader的源码做了简单修改。因为BufferedReader是不断有buffer去原始的input stream获取内容,然后逐一 ...
/*
* @Author: dennyy99@gmail.com
* @Date: 2012-04-02
*/
好吧,我是有点热心了。看到ItEye上满屏的框架名词的确让人有些悲愤!如果我是一个准备学点Java用来开拓人生的新人,在出入ItEye多次后,可能见过最多的名词是SSH。这不能怪这个氛围,因为招聘要求上也是这样写的。所以许许多多的新人开始追求对SSH的一夜速成:去培训机构、搭环境、跑通例子后义无反顾地陷入到SSH的漩涡中。
揠苗助长,应该是一个很合适的总结吧。还没搞清楚为什么有SSH,它的设计主旨是什么前就开始使用它,怎样听都让人感觉不靠谱。更可怕的是, ...
接上一篇blog对实时分析与离线分析的思考
昨天看了S4与Storm的设计,再结合之前对Microsoft的Dryad的了解,感觉有些共性是需要明确的。
在MapReduce这种“分裂-合并”模型出世之前,我们都采用“一层计 ...
这几天看到一篇文章说,到2020年,全球的数据使用量预计将达到35ZB,也就是近400亿个1T硬盘的总量。这还不把我们低效的硬盘利用率计算在内。我也Google了下,今年全球硬盘预计总出货量才8亿块。同时Facebook说用户平均每天上传近2.5亿张照片... 呵呵,这个世界太疯狂,硬盘生产得有多大的增长幅度才能满足这么多宅男宅女的需求呢?
只要有数据存储的需求,总有人会尽力地满足。但从个人或公司的角度来看,买硬盘也得花钱呀。该想想有什么办法花更少的钱了...
我见过的大数据有:视频、图片、服务器日志和用户行为日志。从它们的特点来看:1.冗余度。这些数据 ...
数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应。Hadoop的设计初衷是存储与分析离线大数据,我认为它的缺点就是不能及时地利用数据中所蕴含的深层价值。
在做深入分析之前,我想从门外汉的 ...
是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰
Benchmark: 对1G数据做wordcount
部分内容:
*********************************
硬件级别
提高磁盘IO的性能
noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间
client端设置
map与reduce task数量
map task的数量由s ...
优秀程序员还得有个标签:可控性
- 博客分类:
- 其它
读到CSDN的一篇文章《优秀程序员的首要特性:判断力》,作者讲了一个故事来说明作为程序员判断力是如何重要。节省时间,我把故事贴出来:
引用关于Jack和Dianne的故事
Jack是一个摇滚巨星。Jack喜欢谈论世界上最酷会议中提到的最新发展趋势。他很重视在一个新项目中使用三种以上的新技术。当请他做一个基于互联网的控制后台,用于将烹饪方法与厨具进行匹配。他投入很大的精力开始做此事。最终该后台中用到了Google Protocol Buffers、node.js,具有可扩展性,却很难维护。
Dianne是一个优秀的程序员。最初Dianne是一个Unix 管理员,两年前才开始做Rub ...
RPC是Hadoop的基础组件,提供分布式环境下的对象调用功能。之前用了两天时间分析与测试Hadoop RPC,目的是想弄清楚它对集群协作的影响。本来想等深入研究后再总结,但怕过完十一就忘的差不多了,那就今天写下来。
这节描述三个部分:
1. Hadoop RPC 介绍
2. RPC server端的实体模型
3. 用户对RPC可以有哪些影响
Hadoop RPC介绍
一般我们所了解的RPC机制都要面对两个问题:对象调用方式和序列/反序列化机制。基于此的RPC产品与框架也很多,但Hadoop却自己实现了简单的RPC组件,依赖于Hadoop Writable类型的支持 ...
Hadoop集群上运行有多道MapReduce Job,到底每个Job消费集群计算资源(CPU,内存)的情况如何,通常我们是不知道的。这节来探讨下如果想获得这些信息,应该怎样做。
每个Job在运行时是散布在TaskTracker上,由不同的JVM来执 ...
HDFS提供用户客户端服务,在协助用户操作集群数据的同时,内部也包含大量的控制逻辑。这样我们就可以把HDFS客户端理解为两部分:一部分提供客户调用,另外一部分属于HDFS内部,作为集群的入口,与NameNode与DataNode通信, ...