`
085567
  • 浏览: 220152 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
HBase 写数据的过程是:先写到内存中(memstore),当内存中的数据达到一定大小,将内存中的数据一次性flush到磁盘上形成数据文件。期间对每一次写操作,都会记一个持久化的日志。那些 flush 到磁盘上的文件,会定时进行压缩。下图形像地说明这一系列过程: 原文链接:http://goo.gl/jwKdj
今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正): 1.Hadoop’s SequenceFile ...
在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。 百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有超过 ...
namenode莫名奇妙的启动不了,看log: 2011-04-19 12:06:59,967 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 11471 2011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files under construction = 0 2011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.co ...
http://about.digg.com/blog/how-digg-is-built   看到digg开发人员Dave Beckett 的博客How Digg is Built ,记录两张图片参考一下digg应用的技术:    
前提是已经安装好HADOOP(020.2): tar -zxvf zookeeper-3.3.2.tar.gzcd zookeeper-3.3.2.tar.gzmv * /hadoop/zookeepercd /hadoop/zookeeper zookeeper要部署到各台机器的相同目录下,且具有相同的配置文件。 Zookeeper 的配置文件主要有以下两个: 1、/hadoop/zo ...
   Connection refused     解决:  1   mysql用户名和密码确认正确 2   mysql上有集群所有节点的访问授权  
http://delong.typepad.com/sdj/2011/01/wht-future-does-facebook-have.html   总结得不错,记录两句。 The key question that everybody has when they go to the world wide web is a simple one: "What do I need to know?" Different web companies give different answers to that question: Wikipedia: You nee ...
在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。 要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。 连接上mysql后可以看到hive元数据对应的表约有20个,其中和表结构信息有关的有9张,其余的10多张或为空,或只有简单的几条记录,以下是部分主要表的简要说明。 表名 说明 关联键 TBLS 所有hive表的基本信息 T ...
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型: 1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile 2. HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File 下面主要通过代码理解一下HFile的存储格式。 HFile 下图是HFile的存储格式: HFile由6部分组成的,其中数据KeyValue保存在 ...
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心 ...
原文: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison While SQL databases are insanely useful tools, their tyranny of ~15 years is coming to an end. And it was just time: I can’t even count the things that were forced in ...
转自:http://cloud.csdn.net/a/20110303/292969.html   这是一篇关于NoSQL就业趋势的报告分析。该报告重点调查了在NoSQL下的8个工具,包括Cassandra, Redis, Voldemort, SimpleDB, CouchDB, MongoDB, HBase, Hypertable和Riak在内的各企业的技术需求情况。 根 ...
一、环境 HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6 二、需求背景       在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构 ...
一、概述 HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。 这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。) 二、大数据载入的步骤 大数据的加载包含了2个步骤: 1、通过MapReduce的作业进行数据准备过程 首先,通过MapReduce使用HFileOutputFormat来 ...
Global site tag (gtag.js) - Google Analytics