本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- zhanjia
- lzyfn123
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- mwhgJava
- silverend
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- johnsmith9th
- jveqi
- java-007
- sunj
最新文章列表
1. Meet Hadoop
1. Meet Hadoop
1.1. Data 数据
本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。
1.2. Data Storage and Analysis 数据存储和分析
现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。
读取硬盘上的全部数据会花费比较长的时间,如果是写操作 ...
MapReduce Key Revert ——特定数据模式的负载均衡
符号、记法
其中{k,v}指一个Key,Value对,{..} 中第一个分量是Key,第二个是Value。
[e]指一个集合,其中的元素为e。
[{k,v}]就指一个{k,v}的集合。
问题
给定巨大的集合S=[{k1,k2}],对S中每个k1,计算k1相同,而k2不同的元素个数。生成
分布式计算开源框架Hadoop入门实践
Author :岑文初<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
Email: wenchu.cenwc@alibaba-inc.com
msn: cenwenchu_79@hotmail.com
blog: http://blog.csdn.net/c ...
Google的Sawzall,Yahoo的Pig和微软的Dryad
Google的Sawzall,Yahoo的Pig和微软的Dryad
Greg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软的Dryad 。 这真是一个信息爆炸的时代,在这个大背景里消耗CPU最多的计算会越来越多从“软件本身性能提升”逐渐转移到信息处理的过程中。描述计算速度提高的摩尔定 律,据说现 ...
Google的Sawzall,Yahoo的Pig和微软的Dryad
Google的Sawzall,Yahoo的Pig和微软的Dryad
Greg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软的Dryad 。 这真是一个信息爆炸的时代,在这个大背景里消耗CPU最多的计算会越来越多从“软件本身性能提升”逐渐转移到信息处理的过程中。描述计算速度提高的摩尔定 律,据说现 ...
免费的晚餐--Google技术学习
作者:江南白衣,原文出处:http://blog.csdn.net/calvinxiu/archive/2007/01/31/1498597.aspx,转载请保留出处。如果说Google的搜索引擎是免费的早餐,Gmail们是免费的 ...
Google's BigTable 原理 (翻译)
Google's BigTable 原理 (翻译)
题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。
------ 编者
官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个用来处理大数据量的系统。这种系统适合处理半结构化的数据比如 RSS 数据源。 以下发言 是 Andre ...
介绍 Nutch 第一部分:抓取过程详解(翻译2)
介绍 Nutch 第一部分:抓取过程详解(2)
通过上文现在我们有了一些基本的概念了,现在应该接触实际的操作了,因为懂得原理和实践还是有很大差距的。
抓取是一个循环的过程:抓取蜘蛛从WebDB中生成了一个 fetchlist 集合;抽取工具根据fetchlist从网络上下载网页内容;蜘蛛程序根据抽取工具发现的新链接更新WebDB;然后再生成新的fetchlist;周而复始。(注:蜘蛛是分 ...
MapReduce:Google的人间大炮
网络上关于MapReduce的介绍,最权威的就是 Jeffrey Dean 和 Sanjay Ghemawat 的那篇:MapReduce: Simpli ed Data Processing on Large Clusters您可以到 labs.google.com 上下载该文。
对goole这样需要分析处理海量数据的公司来说,普通的编程方法已经不够用了。于是 google开发了MapRedu ...