- 浏览: 155025 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (113)
- Java工具类 (3)
- Hibernate (1)
- Struts>1&2 (0)
- Spring (0)
- Web前端 (1)
- 数据库 (2)
- 中间件 (3)
- 搜索引擎 (11)
- EJB (1)
- Log日志 (1)
- OS操作系统 (7)
- Java文档 (4)
- Security (1)
- Exception&Error (7)
- 日志&心情 (7)
- 开心一下 (3)
- 云计算 (41)
- Cache缓存 (4)
- MongoDB (1)
- OS操作系统 Linux (7)
- jquery (1)
- 机器学习 (2)
- Plugins (2)
- AJAX (1)
- Java工具 (1)
- WebService (1)
最新评论
-
a420144030:
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做 ...
mahout使用 -
di1984HIT:
OK,真的很牛啊
hadoop常见错误 -
xwl1991:
还真是这个问题 !
quartz报错java.lang.NoSuchMethodError: org.apache.commons.collections.SetUtils.ord
转自:http://www.4ucode.com/Study/Topic/1925466
第一步,启动hadoop,命令:./start-all.sh
第二步,启动hive,命令:
./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=127.0.0.1:60000
这里,-hiveconf hbase.master=指向自己在hbase-site.xml中hbase.master的值
第三步,启动hbase,命令:./start-hbase.sh
第四步,建立关联表,这里我们要查询的表在hbase中已经存在所以,使用CREATE EXTERNAL TABLE来建立,如下:
CREATE EXTERNAL TABLE hbase_table_2(key string, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = "data:1") TBLPROPERTIES("hbase.table.name" = "test");
hbase.columns.mapping指向对应的列族;多列时,data:1,data:2;多列族时,data1:1,data2:1;
hbase.table.name指向对应的表;
hbase_table_2(key string, value string),这个是关联表
我们看一下HBase中要查询的表的结构,
hbase(main):001:0> describe 'test' DESCRIPTION ENABLED {NAME => 'test', FAMILIES => [{NAME => 'data', COMPRESSION => 'NONE', true VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}]} 1 row(s) in 0.0810 seconds hbase(main):002:0>
在看一下表中的数据,
hbase(main):002:0> scan 'test' ROW COLUMN+CELL row1 column=data:1, timestamp=1300847098583, value=value1 row12 column=data:1, timestamp=1300849056637, value=value3 row2 column=data:2, timestamp=1300847106880, value=value2 3 row(s) in 0.0160 seconds hbase(main):003:0>
列族:data:1、data:2两个
Key:row1、row12、row2
value:value1、value3、value2
hbase_table_2(key string, value string)中对应的test表中的row,value字段对应的是test表中的value
OK,现在可以来看看查询结果了,
我们在hive命令行中先查看一下hbase_table_2,
hive> select * from hbase_table_2; OK row1 value1 row12 value3 Time taken: 0.197 seconds hive>
对比一下test表中的列族为data:1的数据,
row1 column=data:1, timestamp=1300847098583, value=value1 row12 column=data:1, timestamp=1300849056637, value=value3
和查询结果相符,没问题,然后我们在hbase中在给列族data:1新增一条数据,
hbase(main):003:0> put 'test','row13','data:1','value4' 0 row(s) in 0.0050 seconds hbase(main):004:0>
再查看hbase_table_2表,
hive> select * from hbase_table_2; OK row1 value1 row12 value3 row13 value4 Time taken: 0.165 seconds hive>
新增数据value4出现了,说明可以通过hbase_table_2查询hbase的test表
下面我们来查询一下test表中value值为value3的数据,
hive> select * From hbase_table_2 where value='value3'; Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to 0 since there's no reduce operator Starting Job = job_201103231022_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201103231022_0001 Kill Command = /home/dream-victor/hadoop-0.20.2/bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201103231022_0001 2011-03-23 11:23:27,807 Stage-1 map = 0%, reduce = 0% 2011-03-23 11:23:30,824 Stage-1 map = 100%, reduce = 0% 2011-03-23 11:23:33,854 Stage-1 map = 100%, reduce = 100% Ended Job = job_201103231022_0001 OK row12 value3 Time taken: 11.929 seconds hive>
和hbase的test表对比一下,
row12 column=data:1, timestamp=1300849056637, value=value3
OK,这样我们就可以使用SQL来对hbase进行查询了。
以上只是在命令行里左对应的查询,我们的目的是使用JAVA代码来查询出有用的数据,其实这个也很简单,
首先,启动Hive的命令有点变化,使用如下命令:
./hive --service hiveserver
这里我们默认使用嵌入的Derby数据库,这里可以在hive-site.xml文件中查看到:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:;databaseName=metastore_db;create=true</value>//指定了数据库默认的名字和地址 </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>org.apache.derby.jdbc.EmbeddedDriver</value> </property>
在此,数据库链接的URL可以使用默认的:jdbc:hive://localhost:10000/default
有了上面的准备,下面我们就可以使用JAVA代码来读取数据了,如下:
public class HiveTest extends TestCase { private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; private Connection con; private boolean standAloneServer = true; public void testSelect() throws SQLException { Statement stmt = con.createStatement(); ResultSet res = stmt.executeQuery("select * from hbase_table_2"); boolean moreRow = res.next(); while (moreRow) { System.out.println(res.getString(1)+","+res.getString(2)); moreRow = res.next(); } } @Override protected void setUp() throws Exception { super.setUp(); Class.forName(driverName); con = DriverManager.getConnection( "jdbc:hive://localhost:10000/default", "", ""); } }
结果,
row1,value1 row12,value3 row13,value4 row14,test
查看一下hbase中的结果,
ROW COLUMN+CELL row1 column=data:1, timestamp=1300847098583, value=value1 row12 column=data:1, timestamp=1300849056637, value=value3 row13 column=data:1, timestamp=1300850443699, value=value4 row14 column=data:1, timestamp=1300867550502, value=test
OK,完美了,不过还是希望这样的需求少一点,毕竟Hbase产生的初衷不是为了支持结构化查询。
发表评论
-
用Sqoop把数据从HDFS导入到MYSQL
2012-10-27 23:30 2353转自:http://www.kaifajie.cn/mySQL ... -
大数据的储存:百度HDFS集群的数据压缩
2012-08-30 17:48 12072012年4月13日,由IT168(ITP ... -
用sqoop进行mysql和hdfs系统间的数据互导
2012-07-31 16:32 1940转自:http://abloz.com/2012/07/19/ ... -
从hive将数据导出到mysql
2012-07-31 16:31 1824转自:http://abloz.com/2012/07/20/ ... -
Hive SQL
2012-07-19 13:49 1426转自:http://www.tbdata.org/ ... -
Hive优化总结
2012-07-09 15:18 4331优化时,把hive sql当做ma ... -
hadoop/mapred 优化方法
2012-06-12 11:47 1396从三个方面着手优化 : 1. hadoop配置 2. ... -
hadoop集群dfs.data.dir目录权限问题导致节点无法启动
2012-06-11 18:32 6227安装使用Hive的时候发现文件无法从本地拷贝到hadoo ... -
hadoop中的balancer
2012-06-11 15:49 1143对于HDFS集群,经常长时间的运行,尤其是大量的delete操 ... -
Hadoop集群上使用Lzo压缩
2012-05-28 11:03 934转自:http://www.tech126.com/hadoo ... -
在XP系统下配置eclipse集成hadoop开发
2012-05-05 11:09 1048一、目的:由于hadoop只能在Linux环境下运行,所以对于 ... -
使用Hive读取Hbase中的数据
2012-04-18 14:24 1097转自:http://www.4ucode.com/Study/ ... -
Web日志分析方法概述 让复杂的数据挖掘变得简单可行
2012-04-13 16:31 873志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志 ... -
应用sqoop将MySQL数据库中的数据导入Hbase
2012-04-12 11:31 2066转自:http://www.bwxxkj.com/a/jish ... -
hadoop中的trash机制,恢复删除的文件
2012-03-31 13:46 2200Hadoop回收站trash,默认是关闭的。 1.修改con ... -
Hadoop 和DBMS 的互补性
2012-03-29 12:22 672随着Microsoft 也加入Hadoop 阵营,Hadoop ... -
Hadoop 中的两表join
2012-03-29 12:20 850转自:http://www.gemini52013 ... -
各版本编译hadoop eclipse plugin
2012-03-29 12:19 1381转自:http://www.gemini52013 ... -
hadoop常见错误
2012-03-24 13:04 1665错误1:bin/hadoop dfs 不能正常启动,持续提 ... -
hbase运维
2012-03-23 17:33 1307转自:http://blog.bluedavy.c ...
相关推荐
Scala、Hive与HBase是大数据处理领域中的关键组件,它们在Java开发环境中扮演着重要角色。本压缩包"scala-hive-HBASE-Api.7z"包含了2019年8月至10月间用于工作的相关jar包,主要用于支持Scala、Hive和HBase的集成...
Hive和Hbase的差异主要体现在延迟、数据模型和使用场景上。Hive是高延迟的,适合分析大量静态数据;而Hbase则提供了低延迟的查询,适用于需要快速响应的在线服务。 2. Hive与数据库的比较: - 查询语言:Hive采用...
- **数据存储方式**:Hive 存储在 HDFS 中,而 HBase 存储在 HDFS 上,但以列族形式组织数据。 - **查询能力**:Hive 支持复杂的查询语句,而 HBase 支持简单的键值查询。 - **应用场景**:Hive 更适合批处理任务,...
本话题关注的是如何建立Hive与HBase之间的映射关系,并利用Spark将Hive中的数据高效地导入到ClickHouse数据库。以下将详细介绍这一过程的关键步骤和涉及的技术点。 首先,Hive是基于Hadoop的数据仓库工具,用于存储...
使用HBase Java API把数据从本地导入到HBase中**: - 创建Java项目,导入HBase相关依赖库。 - 使用HBase的Admin API创建HBase表。 - 编写代码,使用Table和Put对象将数据从本地文件读取并写入到HBase表中。 - ...
3. 从HBase中读取数据,转换成Spark DataFrame,方便进一步的数据处理和分析。 4. 利用Spark的MLlib库进行机器学习模型训练,预测和分类等任务。 在实际项目中,这些组件的集成可以帮助企业构建大规模数据处理平台...
- 两者可以通过Hive-on-HBase的方式结合使用,即利用Hive的SQL接口来查询HBase中的数据,增强了HBase的查询灵活性。 #### 2. HBase数据结构 **知识点解析:** HBase的数据模型主要由行键(Row Key)、列族(Column...
Hive和HBase是两种大数据处理工具,它们在大数据生态系统中各自扮演着重要角色。Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL-like语法(HQL,Hive Query Language)对大规模数据集进行分析。而HBase是...
Hive与HBase的结合主要依赖于HBaseStorageHandler,它作为两者之间的桥梁,允许Hive访问和操作HBase中的数据。Hive通过HBaseStorageHandler获取HBase表的相关信息,如表名、列簇和列,以及InputFormat和OutputFormat...
2. HBase到Hive:通过MapReduce任务,将HBase中的数据导入到Hive,创建Hive表并加载数据。也可以使用HBaseSerDe来解析HBase数据。 三、HBase和HDFS互导 1. HBase到HDFS:可以通过HBase的Export工具,将HBase表的...
4. **HBase-Hive Bridge**: 通过建立HBase与Hive之间的桥接,使得Hive可以直接查询HBase中的数据,但这种方式可能会影响HBase的性能,因为它增加了HBase的读取压力。 5. **Apache Phoenix**: 这是一个SQL层,可以...
在使用 DataX 将数据从 Hive 表导入 MySQL 表的过程中,遇到了数据缺失的问题。具体表现为,在某些特定条件下(如数据块大小超过 256M 时),导入到 MySQL 的数据量少于预期。 #### 现象分析 根据观察发现,当数据...
3. Hive集成:通过Hive的HBase存储过程进行数据查询。 4. Flume、Kafka集成:用于日志收集和实时流处理。 这份“HBase官方文档中文版”详细阐述了HBase的核心概念、架构、操作以及最佳实践,对于HBase的学习者和...
当Hive与HBase结合时,可以通过Hive查询HBase中的数据,形成Hive外部表。hive-beeline.jar是Hive的命令行接口,方便用户执行HQL查询。 Hadoop-YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,...
在HBase中,`hbase-default.xml`是一个非常重要的配置文件,它包含了HBase运行时的默认配置参数。这个文件为系统提供了基础设置,比如RegionServer的内存大小、ZooKeeper的地址等,它是所有HBase实例的基础配置模板...
spark2.3 读取hive问题处理读取不到hive中的数据库?spark通过hive读取hbase外连表,报Class Not Found等异常?手动指定s
在企业级数据处理场景中,随着大数据技术的发展,越来越多的企业选择将原有的关系型数据库(如 Oracle)中的数据迁移到基于 Hadoop 生态系统的数据仓库(如 Hive、HBase)中。这种迁移不仅可以充分利用大数据平台的...
本次实验主要目的是学习如何在本地环境中安装、配置并使用HBase和Hive两大组件,完成从数据存储、处理到分析的全流程操作。具体要求如下: 1. **安装与运行**:在个人本地计算机上正确安装并运行HBase和Hive。 2. *...
3. hbase-protocol-1.1.1.jar 和 hbase-server-1.1.1.jar:这两个是Apache HBase的相关库,HBase是一个基于Hadoop的分布式数据库,如果Hive与HBase集成,这些库可能用于在Hive查询中直接操作HBase表。 4. hadoop-...