共同点:
1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储
区别:
2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。
3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。
4.Hive query就是MapReduce jobs可以从5分钟到数小时不止,HBase是非常高效的,肯定比Hive高效的多。
5.Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。
6.hive借用hadoop的MapReduce来完成一些hive中的命令的执行
7.hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。
8.hbase是列存储。
9.hdfs作为底层存储,hdfs是存放文件的系统,而Hbase负责组织文件。
10.hive需要用到hdfs存储文件,需要用到MapReduce计算框架。
- 浏览: 212636 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (391)
- java (18)
- python (3)
- ruby (4)
- linux (48)
- 网络 (9)
- 前端 (2)
- 社会、文化、哲学、人生、百态 (0)
- 工具 (10)
- 下载 (0)
- 常用地址 (0)
- tracert (0)
- mysql (8)
- 开源相关收藏 (1)
- 模块查看依懒 (1)
- watch使用 (1)
- Tcpdump (2)
- easy_install安装 (1)
- 构造redis批量删除脚本 (1)
- MYSQL 性能测试 (1)
- JAVA code encode utf-8 (1)
- linux nginx awk 实时 每妙 (1)
- mkpasswd (1)
- spring security oauth (1)
- jmap dump java memory Analyzer (1)
- JAVA DUMP (1)
- swap linux 过高 解决 (1)
- SWAP (1)
- jmap jstat jstack dump (1)
- java jconsole 的使用 (1)
- git 常用 (1)
- MYSQL 索引 动态 唯一 (1)
- TCP 三次握手 四次挥手 (1)
- linux date (1)
- 删除 空行 注释行 (1)
- maven3 yum linux install repository (1)
- linux git 搭建 (1)
- linux sar eth1 查看 流量 (1)
- sar (1)
- netstat ip 过滤 常用脚本 (1)
- Tcpdump 包分析网络连接过程 (1)
- net ipv4 tcp time wait tw recycle (0)
- /etc/sysctl.conf linux 网络 配置 (1)
- ss 网络连接查看 (比netstat 快很多,实时性牺牲) (1)
- MYSQL 关键字 (1)
- Linux 下多核CPU知识 (1)
- top (1)
- 令牌 证书 (1)
- mysql unix timestamp (1)
- 端口扫描 nc nmap (1)
- 204 http code 状态码 (1)
- ss -s ss -l (1)
- linux 常用 curl (1)
- linux sed 替换 换行 (1)
- centos yum install rpm install (1)
- spring-mvc源码解读 (1)
- 使用iftop查看实时的网络流量 (0)
- linux 命令 expect (1)
- HTTP (1)
- openssl ddif 加密 (1)
- iptables 详解 (1)
- python 虚拟化 VirtualEnv virtualenvwrapper (1)
- nginx (2)
- more less 实用技巧 (1)
- linux nginx (2)
- linux curl https ssl 证书 ca (1)
- openssl (1)
- php mysql linux (1)
- linux 虚拟机 虚拟 xen (0)
- linux 虚拟机 虚拟 xen kvm (1)
- linux perl 单行执行技巧 (1)
- mysql 查看库占用空间 表查用空间 (1)
- linux tcpdump (1)
- maven (1)
- sun.misc.Unsafe (1)
- OpenSSL生成证书 (1)
- http://blog.csdn.net/zzulp/article/details/8018751 (1)
- maven 本地 jar dependency (1)
- 计算JAVA代码行数最简单命令 sed (1)
- 常用的证书格式转换 rsa eg (1)
- 加密 解密 签名 (1)
- 分析jar包冲突 (1)
- 使用JMockit编写java单元测试 (1)
- Linux 技巧:让进程在后台可靠运行的几种方法 (1)
- 环境变量控制 (1)
- 5+ 个 tar 命令的用法,附示例 (1)
- scp自动输入密码 (1)
- ps axo pid (1)
- ppid (1)
- comm (1)
- pmem (1)
- lstart|grep mysql (0)
- lstart (1)
- etime|grep mysql (1)
- UML类图字少好理解 (1)
- HTTP经典文章 (1)
- git (1)
- Git常用命令 (1)
- LINUX 系统被攻击的分析过程 (1)
- NIO (1)
- LINUX 操作快捷键使用 (1)
- openSSL命令、PKI、CA、SSL证书原理 (1)
- shell (2)
- 转载 (1)
- mysqldump 可以直接dump->xml (1)
- VIM比较全面的文章 (1)
- eclipse regex 正则表达式 (1)
- synchronized (1)
- 锁 (1)
- java 正则表达式 regex (1)
- Reference Queue 引用 源码 (1)
- spring aop 源码 分析 (1)
- java @Cache @Transaction 注解 (1)
- spring aop (1)
- spring jdk proxy cglib 动态代理 性能比较 (1)
- spring proxy private public 代理限制 (1)
- spring transaction aop 事务 (1)
- spring autowire 注解注入 (1)
- 桥接 NAT NAT地址转换 内部网络 虚拟网络 (1)
- spring-web-mvc 源码解读 之 RequestMappingHandlerMapping (1)
- find atime mtime ctime -n n +n (1)
- android studio 快捷键初探 (1)
- android 源码阅读的计划 (1)
- 计算机网络学习-VLAN (1)
- sed 高级 合并行 (1)
- CAP 一致性 可用性 分布式容错性 (1)
- android lib so 库文件 (0)
- android lib so 库文件 移植 (1)
- android 不错的博文 (1)
- sourceinsight 源码 阅读 (1)
- Android Tab UI (1)
- 诗 (1)
- mysql 批处理 (0)
- netty 堆外内存 DirectByteBuffer (1)
- netty 并发 百万 推送 (1)
- Linux操作系统中内存buffer和cache的区别 (1)
- maven intellij target bytecode version (1)
- linux sleep()的实现原理 (1)
- android (2)
- javadoc 代码注释规范 (1)
- spring 自动注入bean auto (1)
- Photoshop CS6常用快捷键 (1)
- 股票 数据 机器 分析 (1)
- 批处理 (1)
- mysql -e (1)
- char (1)
- Unicode (1)
- 编码 (1)
- utf8 (1)
- utf-8 (1)
- utf16 (1)
- utf-16 (1)
- IntelliJ IDEA (1)
- ide (1)
- idea (1)
- intellij (1)
- 文件 (1)
- 目录 (1)
- 源代码 (1)
- CountDownLatch (1)
- CyclicBarrier (1)
- Semaphore (1)
- spring (1)
- linux 查看不同进制文件 (1)
- WebMvcConfigurationSupport (1)
- sdkman工具的使用 (1)
- http header (1)
- LINUX系统优化 (1)
最新评论
-
gelongmei:
威武我大酒神
shell脚本不换行刷新数据
相关推荐
《HBase教程:简单易懂,初学者必备》 在大数据处理领域,HBase作为一款分布式、列式存储的NoSQL数据库,因其高效、可扩展的特性,深受广大开发者的青睐。尤其对于初学者而言,掌握HBase的基本概念、操作与应用是至...
本案例详细介绍了如何利用一系列大数据处理工具,包括Sqoop、Hive、Hbase、Kettle以及R语言,对一个技术论坛的日志数据进行分析的过程。这一过程涵盖了数据预处理、存储、查询和可视化等多个环节,旨在帮助读者全面...
hadoop+spark+hive Linux centos大数据集群搭建,简单易懂,从0到1搭建大数据集群
这个压缩包文件包含的"**Hbase中文文档和官方英文文档PDF**"是学习和理解HBase的重要资源,无论是对于初学者还是经验丰富的开发者来说,都是不可或缺的参考资料。 **Hbase中文文档**: 中文文档通常会提供更易懂的...
这本书以其通俗易懂、深入浅出的写作风格,为初学者和对大数据领域感兴趣的读者提供了宝贵的资源。 HBase的核心特性包括: 1. 分布式架构:HBase采用水平扩展的方式,通过增加廉价服务器来提高存储和处理能力,...
在本课程中,主要讲述了HBase详细的架构原理及特点、HBase内部各个角色的详细介绍、安装配置、HBase的Shell操作、新旧版本的读写数据详细流程、HBase的API操作、使用MapReduce以及Hive对HBase数据分析、Rowkey设计、...
- Hive 不是一个关系型数据库。 - 不适合用于在线事务处理 (OLTP)。 - 不适合实时查询及行级更新操作。 - **适合的场景** - 处理离线数据分析 (OLAP)。 - 对于大规模数据集进行批处理查询。 #### 三、Hive的...
2. HBase与传统数据库的区别:比较HBase与传统关系型数据库在设计和功能上的不同。 3. HBase实战:通过实战案例,教授如何使用HBase解决实际问题。 Spark 1. Spark的安装:介绍如何安装Spark,并讨论基于YARN和...
HADOOP笔记详细文档。其中包括HDFS、yarn、mapreduce、hive、Hbase等原理讲解图片与各个组件的详细说明,以及相应mapreduce代码案例实例。以及对伪分布式、全分布式通俗易懂的说明。
2. 大数据应用开发类人才:这类人才主要负责基于大数据技术的应用程序开发,例如使用Hive、HBase、Pig等工具进行数据处理和分析。大数据应用开发工程师是这一领域的主要角色,他们需要具备编程能力,熟悉Java、...
例如,当需要将数据从SQL数据库转移到HDFS、Hive或HBase等分布式存储系统时,工具如Sqoop就起到了关键作用,它允许在不同系统间进行数据的高效迁移。 数据存储是大数据处理中的核心部分,主要依赖于分布式文件系统...
3. **大数据支持**:与Hadoop、Spark等大数据平台集成,支持HDFS、Hive、HBase等大数据源的处理。 4. **调度与工作流**:通过PDI的作业功能,可以构建复杂的定时任务和工作流。 总结,PDI(Kettle)作为一款强大的...
Designing.Data-Intensive.Applications 设计数据密集型应用 详细阐述了分笔试系统的理论基础通俗易懂 看完之后再去学习hadoop hive hbase kafka将加深你的理解
在这个系统中,Hbase用于存储分析后的日志数据,支持快速的随机读取和实时查询,提供高效的数据检索能力。 3. **MapReduce**:MapReduce是Hadoop中的分布式计算模型,它将大规模数据处理分解为两个主要阶段——Map...
3. Hadoop与结构化数据的结合,包括使用Hadoop来现代化数据仓库,以及探索如HBase、Hive和Sqoop等数据工具。 4. 实操Hadoop,深入掌握配置Hadoop集群的细节和对Hadoop日常管理的全面概览。 5. 利用额外资源提升...
大数据技术涵盖了数据采集、存储、处理、分析和可视化等多个环节,涉及的技术栈包括Hadoop、Spark、Flink等分布式计算框架,以及NoSQL数据库、Hive、HBase等数据存储解决方案。 在这个竞赛中,参赛者可能需要利用...
Scala与Spark的结合,让Scala的学习者有机会接触到大数据生态圈中的Hadoop、Hive、HBase等重要工具和概念,为未来进入大数据行业打下坚实的基础。 综上所述,Scala语言不仅有其独特的编程魅力,还因大数据技术的...
同时,数据仓库如Hive或HBase可以用于存储历史数据,便于后期分析和挖掘。 在数据挖掘方面,模板可以包含预设的分析模型,比如趋势预测、异常检测、关联规则挖掘等。这些模型可以帮助用户发现潜在的投资机会或者...
在大数据领域,Kettle支持与Hadoop、Hive、HBase等平台的无缝集成。它可以通过Hadoop的MapReduce或Spark引擎执行分布式处理,提高数据处理的效率和扩展性。Kettle的Hadoop连接器允许用户从HDFS读取数据,或者将处理...