最新文章列表

基于Hadoop构建对象存储系统(二)

归档文件的再归档 1.        扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件; 2.        根据归档文件大小配置参 ...
yeminping 评论(0) 有1661人浏览 2009-12-25 08:59

基于Hadoop构建对象存储系统(一)

前言   l          云计算领域目前有两大代表性系统: Google 和 Amazon ,它们各自的存储系统为 Google GFS 和 Amazon S3 ...
yeminping 评论(0) 有2498人浏览 2009-12-25 08:56

MapReduce 10个小技巧

10 MapReduce Tips This piece is based on the talk “Practical MapReduce” that I gave at Hadoop User Group UK on April 14. 1. Use an appropriate MapReduce language There are many languages and fra ...
Joo 评论(0) 有1164人浏览 2009-12-24 00:54

3.The Hadoop Distributed File System

3. The Hadoop Distributed File System 3.1. The Design of HDFS HDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。 HDFS不足: 低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文件的多个wirter进行写入或者任意位 ...
hadoopforcloud 评论(0) 有2156人浏览 2009-11-30 22:33

NoSQL系统汇总

key-value 缓存 memcached, repcached, coherence, infinispan, eXtreme scale, jboss cache, velocity, terracoqa key‐value 存储 keyspace, flare, schema‐free, RAMCloud 最终一致性(eventually‐consistent) key-value 存储 ...
willko 评论(0) 有3355人浏览 2009-11-08 13:12

GWT+hadoop+Hbase搭建环境

望能够给同学们提供些便捷,节省些时间。文章中有转载其他达人的内容,但是本着与时俱进的原则,对里面的诸多内容进行了修改。 搭建Hadoop/Hbase环境: 1.在Apache/Hadoop项目的网站(hadoop.apache.org/)下载hadoop以及hbase的发行包,此处两个发行包的大版本号一定要一致,我使用的版本是0.20.1:   hadoop-0.20.1.tar.gz    hb ...
fishyu0817 评论(1) 有6665人浏览 2009-10-28 17:29

提升hbase性能的几个地方

1、使用bloomfilter和mapfile_index_interval Bloomfilter(开启/未开启=1/0) mapfile_index_interval Exists(0-10000)/ms Get(10001 - 20000)/ms 0 128 22460
cangyingzhijia 评论(0) 有1759人浏览 2009-10-21 16:37

Nutch 研究<三> 将Nutch爬取结果放入Hypertable

想把Nutch抓取的web page结果放入到Hypertable中去,目前思路主要有三个: 1. 修改Nutch源代码,让Nutch基于Hypertable工作,可以参考Hbase的实现. 由于该实现缺失Nutch好多特性,而且不易升级,考虑作罢. 2. 将Nutch抓取结果以命令导出为text的dump文件,然后用MapReduce解析该文件,哪相关信息到Hypertable. 3. 其实 ...
lovejuan1314 评论(1) 有1900人浏览 2009-09-22 17:12

第10章 分布式数据库

1.         基于列的结构化分布式数据库 对于海量数据,使用传统的关系型数据库来存储,将对导致性能不高等问题。 常见基于列的结构化分布式数据库有:Google的 Bigtable、Apache的HBase。 2.         基于代理的分布式数据库 ADFS (Alibaba Distributed File System) 将文件分割变成小块,处理海量小文件。 3.
llhdf 评论(0) 有2026人浏览 2009-09-17 09:20

用户推荐Slope One算法与mapreduce&hive实现

下载本文代码 用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。 本文要描述的Slope One 算法是一种对评分进行预测的 ...
coderplay 评论(6) 有10613人浏览 2009-09-14 20:23

HBase入门

HBase入门HBase入门 部分内容参考于http://www.nabble.com/Re%3A-Map-Reduce-over-HBase---sample-code-p18253120.html HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩 ...
gcgmh 评论(0) 有5066人浏览 2009-08-31 15:57

对云计算中几种基础设施(Dynamo,Bigtable,Map/Reduce等)的朴素看法

作者:康华 文章地址:http://blog.csdn.net/kanghua/archive/2008/09/12/2919766.aspx 前言 云计算的概念近期可谓如火如荼,备受关注。我先前听到“云”这个名词 ...
linliangyi2007 评论(0) 有4568人浏览 2009-08-26 13:46

[zz]hadoop hbase

HBase suffers terribly from the inability of applications to flush file data to storage before the file is closed, and a crash of any portion of the HBase servers or a service interrupting crash of HDF ...
badxy 评论(0) 有1077人浏览 2009-08-23 22:25

分布式资源笔记

http://www.cnblogs.com/duguguiyu/archive/2009/02/22/1396034.html 所谓分布式,在这里,很狭义的指代以Google的三驾马车,GFS、Map/Reduce、BigTable为框架核心的分布式存储 ...
andyyehoo 评论(0) 有1048人浏览 2009-08-13 14:25

Hadoop中的子项目Zookeeper能做什么

很高兴得看到Yahoo捐献的Zookeeper已经从sourceforge迁移到Apache,并成为Hadoop的子项目.那么ZooKeeper是什么呢?Zookeeper是Google的Chubby一个开源的实现.是高有效和可 ...
hupy 评论(0) 有6066人浏览 2009-08-09 16:42

HBASE松散数据存储设计初识

引<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 最近关注Hadoop,因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目,也是对Google的BigTable的一种实现。 BigTable是什么?Google的Pape ...
javago_net 评论(0) 有5人浏览 2008-08-08 11:30

Hadoop Hbase适合存储哪类数据?

Hadoop Hbase适合存储哪类数据? 最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。 ...
txf2004 评论(0) 有1141人浏览 2008-04-27 22:37

Hadoop Hbase适合存储哪类数据?

Hadoop Hbase适合存储哪类数据? 最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。 ...
javago_net 评论(0) 有14人浏览 2008-04-27 22:37

最近博客热门TAG

Oracle(49876) MySQL(37268) SQL Server(17623) Access(9329) DB2(4271) Redis(3181) Sybase(2414) 数据挖掘(2098) MongoDB(2014) SQLite(1817) PostgreSQL(1635) HBase(1492) NoSQL(1000) HSQLDB(620) Informix(581) Derby(578) Cassandra(375) PowerBuilder(333) CouchDB(113) TokyoCabinet(87)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics