国内技术人员与国外技术人员差多远

博客分类：

其它

早上同事问到这个问题，回答时顺道总结了我以往的一些看法。这个问题我以前就问过我自己，在接触过很多不同的技术人员后，慢慢形成一些观点。不一定对，权当记录吧。我是感觉国内的技术人员（99%）与国外技术人员之� ...

2014-01-23 09:01
浏览 3879
评论(5)
分类:行业应用

如何查找与定位问题

博客分类：

问题总结
troubleshooting

借着最近有些时间的机会，分享一个主题：《如何查找与定位问题》这里总结的是过去几年工作之中，我所遇到的查找问题的思路与一些有用的工具。从我的经验来看，可以解决80%的online问题。当然，重在运维方向，基本没有涵盖软件bug。内容大纲没有PPT，没有文章，只是把相关的内容写到XMind里，如果有感兴趣的话题，可以与我讨论

2013-03-25 16:47
浏览 2468
评论(3)
分类:企业架构

对Hadoop的SWOT分析

博客分类：

mapreduce

在当前大数据研究与应用如火如荼的时代，Hadoop毅然成为业界的翘楚。我想本着客观的态度，从旁观者的角度分析当前Hadoop所面对的机遇与挑战。在我的认识中，SWOT分析还算全面，所以就选择这样的分析思路。当然，我分析Hadoo ...

2012-06-01 09:46
浏览 10938
评论(4)
分类:企业架构

Hadoop离Online系统有多远

博客分类：

hadoop

hadoop online

长久以来，说起Hadoop，大家只会想到它能承担offline系统的分析工作。的确，它在这个方面做的是很优秀了。如果有人说：Hadoop也可以担当online系统的一部分呀！我们可能就会替这个人悲哀了，是吧？为了更好地认识Hadoop的� ...

2012-05-29 18:43
浏览 10806
评论(1)
分类:企业架构

程序告诉你的事情（节省自己的时间）

博客分类：

问题总结

java qa 工作

系统运行在QA或产品环境上才是真正考虑我们程序员的时候。QA和OP看到任何异常时会求助于我们，然后我们经常的动作可能是：询问QA和OP问题出现的症状，登录到服务器上，查看日志和环境，分析问题。长此以往，发现自� ...

2012-05-15 18:55
浏览 9623
评论(0)
分类:研发管理

下面所描述的内容是根据实际需要对BufferedReader的小改进，并提供一张简图来说明所做的修改。如有更方便的方式请回帖或联系dennyy99@gmail.com给予明示，谢谢如果需要对文件内容建索引，就可能需要每行数据的起始偏移量。下图是文件内容索引的简明结构，目标是为了引出我们对行级偏移量的需求我们平时都是用BufferedReader来读取行内容，如果在它的基础上能提供行级偏移量岂不更好嘛，因此动手对BufferedReader的源码做了简单修改。因为BufferedReader是不断有buffer去原始的input stream获取内容，然后逐一 ...

2012-04-11 18:48
浏览 16210
评论(1)
分类:编程语言

给新人的一些题目

博客分类：

java

java

/* * @Author: dennyy99@gmail.com * @Date: 2012-04-02 */ 好吧，我是有点热心了。看到ItEye上满屏的框架名词的确让人有些悲愤！如果我是一个准备学点Java用来开拓人生的新人，在出入ItEye多次后，可能见过最多的名词是SSH。这不能怪这个氛围，因为招聘要求上也是这样写的。所以许许多多的新人开始追求对SSH的一夜速成：去培训机构、搭环境、跑通例子后义无反顾地陷入到SSH的漩涡中。揠苗助长，应该是一个很合适的总结吧。还没搞清楚为什么有SSH，它的设计主旨是什么前就开始使用它，怎样听都让人感觉不靠谱。更可怕的是， ...

2012-04-05 11:48
浏览 12948
评论(10)
分类:编程语言

对实时分析与离线分析的思考（二）

博客分类：

hadoop

mapreduce

接上一篇blog对实时分析与离线分析的思考昨天看了S4与Storm的设计，再结合之前对Microsoft的Dryad的了解，感觉有些共性是需要明确的。在MapReduce这种“分裂－合并”模型出世之前，我们都采用“一层计� ...

2012-02-15 14:20
浏览 11188
评论(3)
分类:企业架构

把买硬盘的钱省下来吧...

博客分类：

其它

硬盘

这几天看到一篇文章说，到2020年，全球的数据使用量预计将达到35ZB，也就是近400亿个1T硬盘的总量。这还不把我们低效的硬盘利用率计算在内。我也Google了下，今年全球硬盘预计总出货量才8亿块。同时Facebook说用户平均每天上传近2.5亿张照片... 呵呵，这个世界太疯狂，硬盘生产得有多大的增长幅度才能满足这么多宅男宅女的需求呢？只要有数据存储的需求，总有人会尽力地满足。但从个人或公司的角度来看，买硬盘也得花钱呀。该想想有什么办法花更少的钱了... 我见过的大数据有：视频、图片、服务器日志和用户行为日志。从它们的特点来看：1.冗余度。这些数据 ...

2012-02-15 11:07
浏览 2690
评论(0)
分类:非技术

对实时分析与离线分析的思考

博客分类：

hadoop

hadoop streaming

数据的价值是有时效性的，越早分析越能得到更快的问题反馈或响应。Hadoop的设计初衷是存储与分析离线大数据，我认为它的缺点就是不能及时地利用数据中所蕴含的深层价值。在做深入分析之前，我想从门外汉的� ...

2012-02-13 16:06
浏览 10997
评论(1)
分类:企业架构

MapReduce:Job性能调优总结

博客分类：

mapreduce

mapreduce hadoop

是时候把去年早期MapReduce调优工作的结果放出来了，丢在Google Doc里太长时间，都落了一身的灰 Benchmark: 对1G数据做wordcount 部分内容: ********************************* 硬件级别提高磁盘IO的性能 noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间 client端设置 map与reduce task数量 map task的数量由s ...

2012-01-11 13:41
浏览 18860
评论(3)
分类:企业架构

优秀程序员还得有个标签：可控性

博客分类：

其它

读到CSDN的一篇文章《优秀程序员的首要特性：判断力》，作者讲了一个故事来说明作为程序员判断力是如何重要。节省时间，我把故事贴出来：引用关于Jack和Dianne的故事 Jack是一个摇滚巨星。Jack喜欢谈论世界上最酷会议中提到的最新发展趋势。他很重视在一个新项目中使用三种以上的新技术。当请他做一个基于互联网的控制后台，用于将烹饪方法与厨具进行匹配。他投入很大的精力开始做此事。最终该后台中用到了Google Protocol Buffers、node.js，具有可扩展性，却很难维护。 Dianne是一个优秀的程序员。最初Dianne是一个Unix 管理员，两年前才开始做Rub ...

2011-11-08 11:47
浏览 2267
评论(11)
分类:非技术

大致了解下Hadoop RPC机制

博客分类：

hadoop

hadoop rpc

RPC是Hadoop的基础组件，提供分布式环境下的对象调用功能。之前用了两天时间分析与测试Hadoop RPC，目的是想弄清楚它对集群协作的影响。本来想等深入研究后再总结，但怕过完十一就忘的差不多了，那就今天写下来。这节描述三个部分： 1. Hadoop RPC 介绍 2. RPC server端的实体模型 3. 用户对RPC可以有哪些影响 Hadoop RPC介绍一般我们所了解的RPC机制都要面对两个问题：对象调用方式和序列/反序列化机制。基于此的RPC产品与框架也很多，但Hadoop却自己实现了简单的RPC组件，依赖于Hadoop Writable类型的支持 ...

2011-09-29 16:41
浏览 14732
评论(0)
分类:企业架构

MapReduce:计算Job运行时的CPU与内存平均利用率

博客分类：

mapreduce

mapreduce hadoop

Hadoop集群上运行有多道MapReduce Job，到底每个Job消费集群计算资源(CPU，内存)的情况如何，通常我们是不知道的。这节来探讨下如果想获得这些信息，应该怎样做。每个Job在运行时是散布在TaskTracker上，由不同的JVM来执� ...

2011-09-23 14:00
浏览 9102
评论(5)
分类:企业架构

HDFS:解决HDFS跨版本兼容问题

博客分类：

hdfs

hdfs classloader hadoop

HDFS提供用户客户端服务，在协助用户操作集群数据的同时，内部也包含大量的控制逻辑。这样我们就可以把HDFS客户端理解为两部分:一部分提供客户调用，另外一部分属于HDFS内部，作为集群的入口，与NameNode与DataNode通信， ...

2011-09-21 11:10
浏览 5080
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

国内技术人员与国外技术人员差多远

如何查找与定位问题

对Hadoop的SWOT分析

Hadoop离Online系统有多远

程序告诉你的事情（节省自己的时间）

文件中行级偏移量的一种获取方式

给新人的一些题目

对实时分析与离线分析的思考（二）

把买硬盘的钱省下来吧...

对实时分析与离线分析的思考

MapReduce:Job性能调优总结

优秀程序员还得有个标签：可控性

大致了解下Hadoop RPC机制

MapReduce:计算Job运行时的CPU与内存平均利用率

HDFS:解决HDFS跨版本兼容问题

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>