最新文章列表

1. Meet Hadoop

1. Meet Hadoop 1.1. Data 数据 本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。 1.2. Data Storage and Analysis 数据存储和分析 现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。 读取硬盘上的全部数据会花费比较长的时间,如果是写操作 ...
hadoopforcloud 评论(0) 有1190人浏览 2009-11-05 08:40

Hadoop和计算生物学

在有云计算之前,网格计算已经存在。代替向云发送你的工作,你已经将其发送到网格中。取代配置大银行应急,计算机来做计算,你已经将其发送到网格中。   虚拟化,服务和比较便宜的硬件为网格到云铺好了路。这也许言之过早,但是云似乎是一个更好地发挥了各种类型的工作。网格没有太离题的部分原因是,它的海报故事通常是科学应用……这占据一席之地。   然而,有趣的是如何科学的猜想——大的和小的科学都将在云中进行。关 ...
bobotiger 评论(0) 有38人浏览 2009-11-04 11:08

云计算的几种模式介绍!

目前各大IT厂商都在宣传自己的云计算,每个厂商的方案都一般存在差异,差异可大可小,以下我将介绍几种云计算模式。 1.提供虚拟资源租用   典型厂商为Amazon,Amazon 云平台主要业务之一为提供硬件上的虚拟机租用模式,基于Amazon Web自助平台用户可以自由的申请虚拟机,该虚拟机目前具有多种计算能力的类型供选择: Standard Instances Instances of thi ...
cppupu 评论(0) 有1665人浏览 2009-11-02 23:45

MapReduce做了多余的事情

MapReduce做了多余的事情 本文假定读者已了解MapReduce。 Map Map阶段一般做三件事情: 1. 切分输入 2. 变换输入为输出 3. 执行可选的Combine 如果要说哪项是多于的,大概就是Combine了。Combine在很多时候可以减少传递给Reduce
febird 评论(1) 有1522人浏览 2009-10-27 15:25

MapReduce Key Revert ——特定数据模式的负载均衡

符号、记法 其中{k,v}指一个Key,Value对,{..} 中第一个分量是Key,第二个是Value。 [e]指一个集合,其中的元素为e。 [{k,v}]就指一个{k,v}的集合。 问题 给定巨大的集合S=[{k1,k2}],对S中每个k1,计算k1相同,而k2不同的元素个数。生成
febird 评论(0) 有965人浏览 2009-10-27 11:45

hadoop介绍

什么是hadoop Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google Fi ...
provista 评论(0) 有3632人浏览 2009-10-20 09:51

管道的境界

一直在想:如何在 Hadoop.MapReduce 中,插入一个 C 写的 HashFunction,既要高效,又要接口简洁。通过命令行实现调用显然是不行的。刚刚终于想出了:使用管道! 一个非常简单的程序,从stdin读入,写到stdout。多简单!至于效率,管道嘛,本质上就是异步的,自然是buffered&asynchronous 模式。 hash 程序 #include <s ...
febird 评论(0) 有674人浏览 2009-07-28 20:15

分布式计算开源框架Hadoop入门实践

Author :岑文初<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> Email: wenchu.cenwc@alibaba-inc.com msn: cenwenchu_79@hotmail.com blog: http://blog.csdn.net/c ...
javago_net 评论(0) 有11人浏览 2008-08-29 12:03

Google的Sawzall,Yahoo的Pig和微软的Dryad

Google的Sawzall,Yahoo的Pig和微软的Dryad Greg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软的Dryad 。 这真是一个信息爆炸的时代,在这个大背景里消耗CPU最多的计算会越来越多从“软件本身性能提升”逐渐转移到信息处理的过程中。描述计算速度提高的摩尔定 律,据说现 ...
txf2004 评论(0) 有1214人浏览 2007-05-07 10:12

Google的Sawzall,Yahoo的Pig和微软的Dryad

Google的Sawzall,Yahoo的Pig和微软的Dryad Greg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软的Dryad 。 这真是一个信息爆炸的时代,在这个大背景里消耗CPU最多的计算会越来越多从“软件本身性能提升”逐渐转移到信息处理的过程中。描述计算速度提高的摩尔定 律,据说现 ...
javago_net 评论(0) 有10人浏览 2007-05-07 10:12

Hadoop-- 海量文件的分布式计算处理方案

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程 ...
txf2004 评论(0) 有751人浏览 2007-02-09 12:25

Hadoop-- 海量文件的分布式计算处理方案

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程 ...
javago_net 评论(0) 有3人浏览 2007-02-09 12:25

免费的晚餐--Google技术学习

作者:江南白衣,原文出处:http://blog.csdn.net/calvinxiu/archive/2007/01/31/1498597.aspx,转载请保留出处。如果说Google的搜索引擎是免费的早餐,Gmail们是免费的 ...
txf2004 评论(0) 有850人浏览 2007-01-31 09:40

免费的晚餐--Google技术学习

作者:江南白衣,原文出处:http://blog.csdn.net/calvinxiu/archive/2007/01/31/1498597.aspx,转载请保留出处。如果说Google的搜索引擎是免费的早餐,Gmail们是免费的 ...
javago_net 评论(0) 有7人浏览 2007-01-31 09:40

Google's BigTable 原理 (翻译)

Google's BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个用来处理大数据量的系统。这种系统适合处理半结构化的数据比如 RSS 数据源。 以下发言 是 Andre ...
javago_net 评论(0) 有35人浏览 2006-02-09 22:02

Google's BigTable 原理 (翻译)

Google's BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个用来处理大数据量的系统。这种系统适合处理半结构化的数据比如 RSS 数据源。 以下发言 是 Andre ...
txf2004 评论(0) 有884人浏览 2006-02-09 22:02

介绍 Nutch 第一部分:抓取过程详解(翻译2)

介绍 Nutch 第一部分:抓取过程详解(2) 通过上文现在我们有了一些基本的概念了,现在应该接触实际的操作了,因为懂得原理和实践还是有很大差距的。 抓取是一个循环的过程:抓取蜘蛛从WebDB中生成了一个 fetchlist 集合;抽取工具根据fetchlist从网络上下载网页内容;蜘蛛程序根据抽取工具发现的新链接更新WebDB;然后再生成新的fetchlist;周而复始。(注:蜘蛛是分 ...
javago_net 评论(0) 有3人浏览 2006-01-16 21:04

介绍 Nutch 第一部分:抓取过程详解(翻译2)

介绍 Nutch 第一部分:抓取过程详解(2) 通过上文现在我们有了一些基本的概念了,现在应该接触实际的操作了,因为懂得原理和实践还是有很大差距的。 抓取是一个循环的过程:抓取蜘蛛从WebDB中生成了一个 fetchlist 集合;抽取工具根据fetchlist从网络上下载网页内容;蜘蛛程序根据抽取工具发现的新链接更新WebDB;然后再生成新的fetchlist;周而复始。(注:蜘蛛是分 ...
txf2004 评论(0) 有821人浏览 2006-01-16 21:04

MapReduce:Google的人间大炮

网络上关于MapReduce的介绍,最权威的就是 Jeffrey Dean 和 Sanjay Ghemawat 的那篇:MapReduce: Simpli ed Data Processing on Large Clusters您可以到 labs.google.com 上下载该文。 对goole这样需要分析处理海量数据的公司来说,普通的编程方法已经不够用了。于是 google开发了MapRedu ...
txf2004 评论(0) 有872人浏览 2005-03-17 23:08

MapReduce:Google的人间大炮

网络上关于MapReduce的介绍,最权威的就是 Jeffrey Dean 和 Sanjay Ghemawat 的那篇:MapReduce: Simpli ed Data Processing on Large Clusters您可以到 labs.google.com 上下载该文。 对goole这样需要分析处理海量数据的公司来说,普通的编程方法已经不够用了。于是 google开发了MapRedu ...
javago_net 评论(0) 有10人浏览 2005-03-17 23:08

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics