最新文章列表

HDFS用户指南(翻译)

HDFS用户指南 原文地址:http://hadoop.apache.org/core/docs/current/hdfs_user_guide.html 译者:dennis zhuang(killme2008@gmail.com),有错误请指正,多谢。 目的 本文档可以作为使用Hadoop分布式文件系统用户的起点,无论是将HDFS应用在一个Hadoop集群中还是作为一个 ...
dennis_zane 评论(3) 有2141人浏览 2008-08-14 20:27

Hadoop 快速入门(二)--Fully-Distributed Mode

上一篇记录了本机模式我虚拟分布模式。http://www.blogjava.net/chenlb/archive/2008/08/11/221311.html 现我在虚拟机里开三台机子,分别命名为:master(172.16.249.210),slave-1(172.16.249.211),slave-2(172.16.249.212)。 master可以无密码登录到slave机。 每台机子都匹 ...
chenlb 评论(0) 有2015人浏览 2008-08-11 15:45

Hadoop 快速入门

  Required Software JavaTM 1.5.x ssh与sshd 如果没有安装请自行安装。我以CentOS 4.6为例。 下载hadoop,http://apache.mirror.phpchina.com/hadoop/core/ 我下载的是0.17.1版本。 解压hadoop-0.17.1.tar.gz,然后conf/hadoop-env.sh 设置J ...
chenlb 评论(0) 有2656人浏览 2008-08-11 15:28

分布式计算开源框架Hadoop介绍

作者 岑文初 发布于 2008年8月4日 上午2时15分 关键字:网格计算 ,集群与缓存 ,Hadoop 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memc ...
johnnyhg 评论(0) 有1527人浏览 2008-08-07 14:21

Google架构

Google架构 文/Todd Hoff 译/黄翀 Google是可伸缩性控制方面的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 l  Linux l  开发语言:Python,Java,C++ 状态 l  在2006年大约有450,000台廉价服务器 l  在2005年Google索引了80亿Web页面,现在没有人知道数目 l  目前在Googl ...
brighter 评论(0) 有765人浏览 2008-08-05 15:47

在 Eclipse3.3 下运行 Nutch 0.9(解决Generator: 0 问题)

Platform: Ubuntu 7.04, JDK 1.6.3, Nutch 0.9, Eclipse 3.3   1、 Nutch 0.9 with Eclipse 3.3 in Ubuntu      参看Nutch的官方文档 ,里面说得很详细了,这里不在赘述。 2、导入hadoop的源代码和,可方便在Eclipse中调试代码和查看API文档。具体方法如下:      Proje ...
Dustin 评论(0) 有2823人浏览 2008-08-02 20:48

分布式 名词

Hadoop 海量文件的分布式计算 处理方案
feng413 评论(0) 有793人浏览 2008-07-30 09:34

Apache Hadoop Wins Terabyte Sort Benchmark

1T字节的数据排序209秒内完成,成功打破297秒的纪录。 100亿100字节的纪录, yahoo拥有13000以上各节点的Hadopp集群。   One of Yahoo's Hadoop clusters sorted 1 terabyte of data in 209 seconds , which beat the previous record of 297 seconds in the ...
masterkey 评论(0) 有1793人浏览 2008-07-29 20:21

OpenSource Project

【Apache】 hadoop:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 http://hadoop.apache.org/ 【Other】 Extjs DBExplorer:Extjs实现的JDBC DBExplorer http://code.google.com/p/jdbexplorer/
goosped 评论(0) 有874人浏览 2008-07-18 09:38

关于分布式lucene

有NFS, haproxy/lvs等解决方案。 或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统   为什么不用hadoop的HDFS? 原因有三: 1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。 2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。 ...
coderplay 评论(2) 有6681人浏览 2008-07-07 14:15

Hadoop赢得1TB排序基准评估第一名

强烈祝贺Hadoop赢得1TB排序基准评估第一名。Yadoo的一个集群最近用209秒时间排序1TB的数据 [1],比上一年的的纪录保持者保持的297秒 [2]快乐将近90秒。1998年Jim Gray创建了排序基准评估的方法,建立100亿条100个字节的纪录,评估对这100亿条纪录完全排序和把纪录写入磁盘的时间。评估是建立在未发布的版本0.18上的。排序所用的源码在这个地址 [3]。   ...
beijing.josh 评论(0) 有4239人浏览 2008-07-07 12:53

HBase的概念和性能选项

在本文中的HBase术语: 基于列:column-oriented 行:row 列组:column families 列:column 单元:cell   理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据 ...
beijing.josh 评论(0) 有5926人浏览 2008-07-03 18:34

经常用的Ant任务

1 使用常见的Ant任务 <target name="db:create" depends="filterSqlFiles" description="Create the database definition"> <sql driver="com.mysql.jdbc.Driver" ur ...
泡泡 评论(0) 有2057人浏览 2008-07-02 00:18

hadoop学习

MapReduce: Simplified Data Processing on Large Clusters   http://labs.google.com/papers/mapreduce.html   HTML: http://labs.google.com/papers/mapreduce-osdi04-slides/index.html   Downloading and instal ...
wind_bell 评论(0) 有2129人浏览 2008-06-27 16:54

Google 架构之学习

Google 架构之学习 Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 Linux 大量语言:Python,Java,C++ 状态 在2006年大约有450,000台廉价服务器 在2005年Google索引了80亿Web页面,现在没有人知道数目 目前在Google有超过200个GFS集群。一个集群可以有1000或者甚至5000台机器。成 ...
yiliner 评论(0) 有977人浏览 2008-06-25 14:41

Google 架构之学习

Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 Linux 大量语言:Python,Java,C++ 状态 在2006年大约有 ...
Azi 评论(0) 有302人浏览 2008-06-24 23:21

云计算10问

一般的业界比较喜欢用一些新名词来体现自己的战略眼光和与对手的区隔。当几个月前google提出云计算的概念的时候,amazon说自己做的事情就是云计算,IBM、intel、sun都声称自己在云计算领域有深刻的计划。只可惜大家听了半天仍然不知道什么是云计算,依旧云里雾里知道这个与计算有关,干脆就叫“云计算”吧。 到底云计算是什么呢? 这个问题不好回答,专业一点的回答是:云计算是依靠强大的计算能力,使 ...
looxiaohu 评论(0) 有1259人浏览 2008-06-19 16:58

hadoop 分布式文件系统:体系和设计 (转载)

1.介绍 hadoop文件系统(HDFS)是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件 ...
no7beckham 评论(0) 有1646人浏览 2008-06-19 15:49

分布式文件系统:Getting Started with Hadoop(转载)

我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002年的时候因公司的需要有机会实践了一把 OpenAFS 和 Coda ,印象深刻,呵呵。好了,闲话少叙,今天将要谈论的是后起之秀 Hadoop 。 Hadoop 是大名鼎鼎的 Lucene 旗下的子项目,它原先是 Nutch 项目的组成部分,于2006 ...
no7beckham 评论(0) 有1336人浏览 2008-06-19 13:56

nutch = Hadoop + Lucene + 网络爬虫(内容属于转载)

原文链接: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为 ...
xingshaomin 评论(0) 有7369人浏览 2008-06-14 22:25

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics