本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- xpenxpen
- kaizi1992
- jh108020
- wiseboyloves
- ganxueyun
- 龙儿筝
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- siemens800
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
最新文章列表
Java连接Hbase0.96异常
在Windows上直接使用JAVA API连接Hbase0.96报的一个异常,这个异常在Hbase0.94的版本里是没有的,为什么? 跟你所用的底层的Hadoop有关系,如果是底层hadoop是1.x的版本,那么没有这个问题,如果是2.x的hadoop,那么需要注意了,可能会出现下面这个问题,异常如下:
2014-07-14 13:27:59,286 WARN [org.apache.hadoo ...
simplehbase版本变更
https://github.com/zhang-xzhi/simplehbase/
https://github.com/zhang-xzhi/simplehbase/wiki
## simplehbase简介
simplehbase是java和hbase之间的轻量级中间件。
主要包含以下功能。
* 数据类型映射:java类型和hbase的bytes之间的数据转换。
* 简单操作封装:封装 ...
Hadoop2.2.0集成Hbase0.96报的一个异常
最近项目抓取的数据,存在Hbase里,所以需要从Hbase里读取数据,创建连接时,发现总是报如下的一个异常:
这个异常,并不影响,数据结果的获取,但是每次总报这个异常,未免让人感觉很不爽,后来经查,散仙发现是xml的解析jar包冲突的问题,究其原因,主要有2处:
1、系统使用的jar包版本冲突所导致的,比如有两个版本不一样但相同的包
2、系统使用的jar包版本过低(相对其他包而言)
上面的截 ...
【HBase】Rowkey设计
本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等,尽可能地使用到HBase存储上的优势。
Key设计
HBase有两个基础的主键结构:row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设计解决存储设计中发现的一些问题。
概念
相比于物理存储,首先谈谈表的逻辑结构。与传统的面向 ...
(HBase+Lucene)
1、核心工具类
package junit;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.List;
hbase shell 基础和常用命令详解
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。
1. 简介
HBase是一个分布式的、面向列的开源数据库,源于 ...
HBase的rowkey设计
HBase的查询实现只提供两种方式:
1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)
2、按指定的条件获取一批记录,scan方法(org.apache.hadoop.hbase.client.Scan)
实现条件查询功能使用的就是scan方式,scan在使用时有以下几点值得注意:
1、scan可以通过setC ...
hbase表结构设计研究
因为一直在做hbase的应用层面的开发,所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp几个方面进行一些分析。最后结合分析如何设计一种适合应用的高效表结构。
1、表的属性
(1)最大版本数:通常是3,如果对于更新比较频繁的应用完全可 ...
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境
新建JAVA项目,添加的包有:
有关Hadoop的hadoop-core-0.20.204.0.jar
有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包
2、主要程序
Java代码
package com.wujintao.hba ...
NO-SQL数据库HBase学习-Get Started
1. 介绍
2. 安装
进入官网下载最新版本:http:// hbase.apache.org/
下载
#直接下载安装:
$ mkdir hbase-install
$ cd hbase-install
$ wget http://apache.claz.org/hbase/hbase-0.92.1/hbase-0.92.1.tar.gz $ ta ...
nutch 集成 hbase
nutch安装
安装软件准备
安装环境:centos 6.5
nutch:v2.2.1
hbase:v0.94.18
本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料;
安装步骤:
安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量
写道
[hadoop@master nutch]$ vim / ...
HBASE 预分区建表
在create一个表时如果不指定预分配region,则默认会先分配一个region,这样在大数据并行载入时性能比较低,因为所有的数据都往一个region灌入,容易引起单节点负载升高,从而影响入库性能,一个好的方法时在建立表时预先分配数个region。方法有两种,主要针对不同版本可供选择。
1.使用RegionSplitter方法,主要针对hbase-0.90.X版本
a.首先使用RegionSp ...
HBASE批量数据导入
把MYSQL中的数据导入到hbase中,采用HBASE自带的BULK加载工具完成。过程分三步:
1.从mysql中导出数据为CSV或TSV格式的文本文件
2.利用importtsv工具转换Tsv文件为hbase的数据文件格式HFILE
3.利用completeulkload加载上一步生成的hbase数据文件
具体步骤:
1.导数据:
select concat(model,'_',pkg_nam ...
HBase-0.96.1.1-cdh5.0.1 单机、伪分布式、完全分布式
编写不易,转载请注明(http://shihlei.iteye.com/blog/2081676)!
概述
搭建hbase-0.96.1.1-cdh5.0.1 单机环境,伪分布式,完全分布式
一单机模式安装
在单机模式中,HBase使用本地文件系统,而不是HDFS ,所有的服务和zooKeeper都运作在一个JVM中。zookeep监听一个端口 ...
hbase的安装与配置【伪分布式】
1、查找对应hadoop版本的hbase
网址:
http://hbase.apache.org/book/configuration.html#basic.prerequisites
最新版本:hbase-0.98.3可适应hadoop版本:2.3.0
2、下载解压
3、修改Java环境变量
vi conf/hbase-env.sh
export JAVA_HOME=/usr/ja ...
hbase gc MemStore-Local Allocation Buffer
转 http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation
Arena Allocation,是一种GC优化技术,它可以有效地减少因内存碎片导致的Full GC,从而提高系统的整体性能。本文介绍Arena Allocation的原理及其在Hbase中的应用-MSLAB。
背景
假设有1G内存,我顺序创建了1百 ...
最近博客热门TAG
Oracle(49876) MySQL(37268) SQL Server(17623) Access(9329) DB2(4271) Redis(3181) Sybase(2414) 数据挖掘(2098) MongoDB(2014) SQLite(1817) PostgreSQL(1635) HBase(1492) NoSQL(1000) HSQLDB(620) Informix(581) Derby(578) Cassandra(375) PowerBuilder(333) CouchDB(113) TokyoCabinet(87)