- 浏览: 220152 次
- 性别:
- 来自: 北京
最新评论
-
yugouai:
下载不了啊。。。
如何获取hive建表语句 -
help:
[root@hadoop-namenode 1 5 /usr/ ...
Sqoop -
085567:
lvshuding 写道请问,sqoop 安装时不用配置什么吗 ...
Sqoop -
085567:
lvshuding 写道请问,导入数据时,kv1.txt的文件 ...
hive与hbase整合 -
lvshuding:
请问,sqoop 安装时不用配置什么吗?
Sqoop
文章列表
HBase 写数据的过程是:先写到内存中(memstore),当内存中的数据达到一定大小,将内存中的数据一次性flush到磁盘上形成数据文件。期间对每一次写操作,都会记一个持久化的日志。那些 flush 到磁盘上的文件,会定时进行压缩。下图形像地说明这一系列过程:
原文链接:http://goo.gl/jwKdj
今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan
将主要内容翻译整理如下(如有错漏,欢迎指正):
1.Hadoop’s SequenceFile
...
在 NoSQL 方面,之前了解到百度对 Hadoop
和 hypertable
都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable
倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。
百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核
CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有超过 ...
namenode莫名奇妙的启动不了,看log:
2011-04-19 12:06:59,967 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 11471
2011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files under construction = 0
2011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.co ...
http://about.digg.com/blog/how-digg-is-built
看到digg开发人员Dave Beckett 的博客How Digg is Built ,记录两张图片参考一下digg应用的技术:
前提是已经安装好HADOOP(020.2):
tar -zxvf zookeeper-3.3.2.tar.gzcd zookeeper-3.3.2.tar.gzmv * /hadoop/zookeepercd /hadoop/zookeeper
zookeeper要部署到各台机器的相同目录下,且具有相同的配置文件。
Zookeeper 的配置文件主要有以下两个:
1、/hadoop/zo ...
Connection refused
解决:
1 mysql用户名和密码确认正确
2 mysql上有集群所有节点的访问授权
http://delong.typepad.com/sdj/2011/01/wht-future-does-facebook-have.html
总结得不错,记录两句。
The key question that everybody has when they go to the world wide web is a simple one: "What do I need to know?" Different web companies give different answers to that question:
Wikipedia: You nee ...
在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。
要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。
连接上mysql后可以看到hive元数据对应的表约有20个,其中和表结构信息有关的有9张,其余的10多张或为空,或只有简单的几条记录,以下是部分主要表的简要说明。
表名
说明
关联键
TBLS
所有hive表的基本信息
T ...
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型:
1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile
2. HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File
下面主要通过代码理解一下HFile的存储格式。
HFile
下图是HFile的存储格式:
HFile由6部分组成的,其中数据KeyValue保存在 ...
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心 ...
原文:
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison
While SQL databases are insanely useful tools, their tyranny of ~15 years is coming to an end. And it was just time: I can’t even count the things that were forced in ...
转自:http://cloud.csdn.net/a/20110303/292969.html
这是一篇关于NoSQL就业趋势的报告分析。该报告重点调查了在NoSQL下的8个工具,包括Cassandra, Redis, Voldemort, SimpleDB, CouchDB, MongoDB, HBase, Hypertable和Riak在内的各企业的技术需求情况。
根 ...
一、环境
HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6
二、需求背景
在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构 ...
一、概述
HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。
这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。)
二、大数据载入的步骤
大数据的加载包含了2个步骤:
1、通过MapReduce的作业进行数据准备过程
首先,通过MapReduce使用HFileOutputFormat来 ...