最新文章列表

Erlang里实现MapReduce

参考: http://weblambdazero.blogspot.com/2008/08/mapreduce-in-erlang.html MapReduce的主要原理是将一个数据集上的计算分发到许多单独的进程上(map),然后收集它们的结果(reduce)。 在Erlang里实现MapReduce非常细节也十分简单,例如Erlang的作者Joe Armstrong发表了一段代码来表示MapRe ...
hideto 评论(3) 有4128人浏览 2008-08-17 23:35

从HDFS看分布式文件系统的设计需求

    分布式文件系统的设计目标大概是这么几个:透明性、并发控制、可伸缩性、容错以及安全需求等。我想试试从这几个角度去观察HDFS的设计和实现 ...
dennis_zane 评论(4) 有8125人浏览 2008-08-15 22:39

分布式计算开源框架Hadoop介绍

作者 岑文初 发布于 2008年8月4日 上午2时15分 关键字:网格计算 ,集群与缓存 ,Hadoop 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memc ...
johnnyhg 评论(0) 有1532人浏览 2008-08-07 14:21

Google架构

Google架构 文/Todd Hoff 译/黄翀 Google是可伸缩性控制方面的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 l  Linux l  开发语言:Python,Java,C++ 状态 l  在2006年大约有450,000台廉价服务器 l  在2005年Google索引了80亿Web页面,现在没有人知道数目 l  目前在Googl ...
brighter 评论(0) 有765人浏览 2008-08-05 15:47

data mark

画图 http://code.google.com/apis/chart/ ruby html Parser watir Hpricot  A Fast, Enjoyable HTML Parser for Ruby http://code.whytheluckystiff.net/hpricot/ http://hi.baidu.com/chenjinze/blog/item/f228 ...
wutao8818 评论(0) 有1154人浏览 2008-07-27 01:58

hadoop学习

MapReduce: Simplified Data Processing on Large Clusters   http://labs.google.com/papers/mapreduce.html   HTML: http://labs.google.com/papers/mapreduce-osdi04-slides/index.html   Downloading and instal ...
wind_bell 评论(0) 有2132人浏览 2008-06-27 16:54

Google 架构之学习

Google 架构之学习 Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 Linux 大量语言:Python,Java,C++ 状态 在2006年大约有450,000台廉价服务器 在2005年Google索引了80亿Web页面,现在没有人知道数目 目前在Google有超过200个GFS集群。一个集群可以有1000或者甚至5000台机器。成 ...
yiliner 评论(0) 有984人浏览 2008-06-25 14:41

Google 架构之学习

Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 Linux 大量语言:Python,Java,C++ 状态 在2006年大约有 ...
Azi 评论(0) 有302人浏览 2008-06-24 23:21

分布式文件系统:Getting Started with Hadoop(转载)

我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002年的时候因公司的需要有机会实践了一把 OpenAFS 和 Coda ,印象深刻,呵呵。好了,闲话少叙,今天将要谈论的是后起之秀 Hadoop 。 Hadoop 是大名鼎鼎的 Lucene 旗下的子项目,它原先是 Nutch 项目的组成部分,于2006 ...
no7beckham 评论(0) 有1337人浏览 2008-06-19 13:56

Hadoop安装部署(转)

本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。 硬件环境共有3台机器,均使用的FC5系统,Java使用的是j ...
lucenehc 评论(1) 有3849人浏览 2008-06-12 14:29

Map Reduce - the Free Lunch is not over?

原文出处: http://www.mengyan.org/blog/archives/2006/11/15/138.html 微软著名的C++大师Herb Sutter 在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fu ...
wind_bell 评论(0) 有1451人浏览 2008-06-05 18:12

Hadoop学习笔记

原文出处: http://blog.csdn.net/heiyeshuwu/archive/2007/09/09/1778193.aspx   一、简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网 Hadoop 上来的。其中有一篇 介绍HDFS的pdf文档 ,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从 这里 一 ...
wind_bell 评论(2) 有2457人浏览 2008-06-05 17:54

Hadoop入门[z]

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或 ...
liudaoru 评论(0) 有1933人浏览 2008-06-03 16:40

Hadoop的基本结构介绍(原创)

Hadoop 的基本结构介绍(原创) 概述:          这是我看了 Hadoop core 0.17.0 文档只有做的一些总结,有不对的地方请给我指出。 ...
fly_hyp 评论(3) 有4906人浏览 2008-06-02 15:59

关注Google的几个技术

关注Google的技术,http://research.google.com/pubs/papers.html#category4Google论文--关于分布式和并行计算,Google的几个核心技术,1 集群设计和管理2 Google File System3 MapReduce(典型的并行计算工具)典型应用:类似于grep的工作,日志分析,web-link的反向分析Google网页的索引是建立在一 ...
泡泡 评论(0) 有1042人浏览 2008-06-01 14:05

nutch源代码分析之Fetcher

MapReduce:获取的urls集 输入:<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现 调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content&g ...
coderplay 评论(0) 有5795人浏览 2008-05-20 17:28

nutch源代码分析之Injector

Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。 参见Injector.inject(Path crawlDb, Path urlDir)方法 MapReduce1: 把输入数据转换为数据库所需的格式   输入:未处理的,包含url信息的文本文件   Map(line) -> <url, CrawlDatum>; status=db ...
coderplay 评论(0) 有6538人浏览 2008-05-20 03:14

数学之美 系列十八 - 矩阵运算和文本处理中的分类问题

我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常 ...
wangdei 评论(2) 有2810人浏览 2008-05-13 19:21

智能型爬虫还在research

根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。 测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。 测试语言:php,但是实际开发语言可能会用c#。 数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。 虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最 ...
imjl 评论(2) 有3100人浏览 2008-04-21 20:55

Google大表(Bigtable):结构化数据的分布存储系统[z]

九月 26, 2006翻译:Google大表(BigTable)大表(Bigtable):结构化数据的分布存储系统http://labs.google.com/papers/bigtable-osdi06.pdf{中是译者评论,程序除外}{本文的翻译可能有不准确的地方,详细资料请参考原文.}摘要bigtable是设计来分布存储大规模结构化数据的,从设计上它可以扩展到上2^50字节,分布存储在几千个普 ...
liudaoru 评论(0) 有4077人浏览 2008-03-31 17:44

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics