最新文章列表

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。   搜索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索 ...
yangshangchuan 评论(1) 有397826人浏览 2014-08-14 00:38

HBase性能优化方法总结(三):读表操作

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第三部分内容:读表操作相关的优化方法。 3. 读表操作 3.1 多HTable并发读 创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子: static final Configuration conf = HBas ...
veveer 评论(0) 有400人浏览 2014-08-08 11:40

HBase性能优化方法总结(二):写表操作

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第二部分内容:写表操作相关的优化方法。 2. 写表操作 2.1 多HTable并发写 创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子: static final Configuration conf = HBa ...
veveer 评论(0) 有457人浏览 2014-08-08 11:38

HBase性能优化方法总结(一):表的设计

HBase性能优化方法总结(一):表的设计 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化, ...
veveer 评论(0) 有510人浏览 2014-08-08 11:37

HBase在单Column和多Column情况下批量Put的性能对比分析

HBase在单Column和多Column情况下批量Put的性能对比分析 作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnbl ...
veveer 评论(0) 有750人浏览 2014-08-08 11:34

HBase Java客户端编程

Hbase采用Java实现,原生客户端也是Java实现,其他语言需要通过thritf接口服务间接访问Hbase的数据。 Hbase作为大数据存储数据库,其写能力非常强,加上Hbase本身就脱胎于Hadoop故和Hadoop的兼容性极好,非常适合于存储半规则数据(灵活、可扩展性强、大数据存储)。基于Hadoop的mapreduce + Hbase存储,非常适合处理大数据。 Hbase基本使用示例: ...
veveer 评论(0) 有701人浏览 2014-08-08 11:31

Hbase-管理及常见操作

  一、常用的hbase shell命令 运行./hbase shell进入操作环境,常用的命令有如下,可以直接输入某个命令关键字进行帮助查询: 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录       put '表名称', '行名称', '列名称:', ...
szjian 评论(0) 有587人浏览 2014-08-07 11:39

HBase简介

HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据,更具体地说仅用普通的硬件配置,能够处理成千上万的行和列所组成的大型数据库。 HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据的可靠 ...
szjian 评论(0) 有1356人浏览 2014-08-07 09:57

Hadoop2.2.0+Hive0.13+Hbase0.96.2集成

本篇,散仙主要讲的是使用Hive如何和Hbase集成,Hbase和Hive的底层存储都在HDFS上,都是hadoop生态系统中的重要一员,所以他们之间有着很亲密的联系,可以相互转换与操作。 hadoop,hbase和hive的搭建就不重复说了,不会的朋友,可以看散仙前面的博客,下面直接进入重点,关于hive集成hbase这一块,网上资料不算多,有的版本比较旧,散仙这里使用的版本是hive0.12 ...
qindongliang1922 评论(0) 有1851人浏览 2014-08-06 20:49

HBase高性能复杂条件查询引擎

  写在前面 在这次的审稿过程中有幸得到了Ted Yu和梁堰波先生的反馈,大家就一些感兴趣的内容进行了讨论。该方案由一个智能交通解决方案演变而来,设计之初仅寄希望于通过二级索引提升查询性能,由于在前期架构时充分考虑了通用性以及对复杂条件的支持,在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。Ted Yu对“查询决策器”表示了关心,他指出类似的组件同时也是Phoenix, Impal ...
wbj0110 评论(0) 有999人浏览 2014-07-30 09:57

Hbase0.98安装与配置

前提条件:     已安装JDK和Hadoop,安装方法请参见:     http://pingguocaomei327-163-com.iteye.com/blog/2097093 1. 下载并解压     解压从官网下的hbase-0.98.1-hadoop ...
苹果草莓 评论(0) 有2144人浏览 2014-07-29 16:54

如何使用Java API操作Hbase(基于0.96新的api)

写了个Hbase新的api的增删改查的工具类,以供参考,直接拷贝代码就能用,散仙觉得基础的功能,都有了,代码如下: package com.dhgate.hbase.test; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import ...
qindongliang1922 评论(0) 有7456人浏览 2014-07-24 20:16

Hadoop2.2.0+Hbase0.96.2分布式集群搭建

最近项目有用到Hbase存储数据,由于现在的hadoop 的集群是基于hadoop2.2.0的,所以不可避免的就需要使用新版的Hbase,以前和hadoop1.x的集群使用的hbase是0.94版本的,现在最新的版本是0.98的,鉴于不稳定,所以散仙就选择了0.96版的Hbase,本次搭建Hbase集群,是基于底层依赖Hadoop2.2.0的,具体的情况描述如下: 序号机器IP角色1192.16 ...
qindongliang1922 评论(0) 有1581人浏览 2014-07-23 21:39

hbase中二级索引的实现--ihbase

一般来说,对数据库建立索引,往往需要单独的数据结构来存储索引的数据.在为hbase建立索引时,可以另外建立一张索引表,查询时先查询索引表,然后用查询结果查询数据表. 这个图左边表示索引表,右边是数据表. 但是对于hbase这种分布式的数据库来说,最大的问题是解决索引表和数据表的本地性问题,hbase很容易就因为负载均衡,表split等原因把索引表和数据表的数据分布到不同的region serv ...
kabike 评论(0) 有15013人浏览 2014-07-23 20:04

谈opents db中时序数据的存储

OpenTSDB是一种基于hbase的实时监控信息收集存储和展示平台.它的schema被精心设计用来存储监控数据这样的典型的时序数据.下面来分析下它的schema及其带来的好处. 监控数据这样的时序序列数据都是带有时间的数据,比如 cpu 20140305143405 15 cpu 20140305143410 17 ...... cpu 20140305143455 33 表示了一系列时间点的c ...
kabike 评论(0) 有1848人浏览 2014-07-23 18:56

Hbase shell

下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:   名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录       put '表名称', '行名称', '列名称:', '值' 查看记录 ...
501311837 评论(0) 有594人浏览 2014-07-21 16:47

phoenix 索引为空导致插入失败

昨天测试 基于Phoenix 的JDBC数据导入,同样的表结构: create table TAB_PS_XDR ( K VARCHAR NOT NULL PRIMARY KEY, A VARCHAR, B VARCHAR, C VARCHAR, D VARCHAR, V VARCHAR) COMPRESSION='SNAP ...
lminqiang 评论(0) 有1084人浏览 2014-07-18 11:03

phoenix 通过JDBC方式导入CSV文件性能测试

最近研究了一下 phoenix 基于JDBC方式导入的性能问题,测试环境: hadoop (2.3.0+cdh5.0.0+548)hbase(0.96.1.1+cdh5.0.0+60) phoenix4.0.0.0 创建表tab_ps_xdr2, 带有4个索引列分别创建4个索引表,如下: create table TAB_PS_XDR2 ( K VARCHAR NOT NULL PRIM ...
lminqiang 评论(0) 有2836人浏览 2014-07-17 13:16

hbase轻量级中间件simplehbase v0.9简介

https://github.com/zhang-xzhi/simplehbase/ https://github.com/zhang-xzhi/simplehbase/wiki ### v0.9 新增 支持HTable如下使用方式,对HTable可以定时flush。 主要场景: 批量写入,但是flush可以配置为指定时间间隔进行。 不降低批操作的吞吐,同时,有一定的实时性保证。 支持用户自定 ...
zhang_xzhi_xjtu 评论(0) 有642人浏览 2014-07-14 13:57

最近博客热门TAG

Oracle(49876) MySQL(37268) SQL Server(17623) Access(9329) DB2(4271) Redis(3181) Sybase(2414) 数据挖掘(2098) MongoDB(2014) SQLite(1817) PostgreSQL(1635) HBase(1492) NoSQL(1000) HSQLDB(620) Informix(581) Derby(578) Cassandra(375) PowerBuilder(333) CouchDB(113) TokyoCabinet(87)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics