今天浏览Cloudera的官博,发现了一篇介绍《Kudu: New Apache Hadoop Storage for Fast Analytics on Fast Data》的文章,摘记如下:
1. 什么是Kudu
This new open source complement to HDFS and Apache HBase is designed to fill gaps in Hadoop’s storage layer that have given rise to stitched-together, hybrid architectures.
可以看出这个新组件有两个特点:1)开源(免费,ASL 2.0);2)这是一个融合HDFS和HBase的功能的新组件,具备介于两者之间的新存储组件
2. Kudu的使用场景
- Strong performance for both scan and random access to help customers simplify complex hybrid architectures(适用于那些既有随机访问,也有批量数据扫描的复合场景)
- High CPU efficiency in order to maximize the return on investment that our customers are making in modern processors(高计算量的场景)
- High IO efficiency in order to leverage modern persistent storage(使用了高性能的存储设备,包括使用更多的内存)
- The ability to update data in place, to avoid extraneous processing and data movement(支持数据更新,避免数据反复迁移)
- The ability to support active-active replicated clusters that span multiple data centers in geographically distant locations(支持跨地域的实时数据备份和查询)
总结上述内容,可以归纳为两个亮点:1)将不同组件结合起来的异构生态圈打通,使得数据、操作在一个圈内进行;2)将CPU、磁盘IO统一考量,便于资源的最优分配,尤其是未来CPU的计算资源成为瓶颈后;
3. 总结
kudu目前来看,是把analytics 和 online两个应用场景进行了整合,目的在于将分散的大数据生态圈组件进行融合,估计这也是未来大数据生态圈急需解决的一个问题,也是一个趋势。
4. 关注点
如何和impala进行结合,如何与HDFS、HBase区分(包括整合、数据迁移等),如何使用SQL引擎进行检索,接口除Java、C++外是否有其他拓展的余地,性能比对
相关推荐
kudu简介,用于宣讲。 Apache Kudu是Apache Hadoop生态系统的一个免费开源的面向列的数据存储。它与Hadoop环境中的大多数数据处理框架兼容。它提供了完整的Hadoop存储层,可以快速分析快速数据。 构建Apache Kudu的...
一、Kudu简介 Kudu是Cloudera公司推出的一种开源、高性能、支持实时插入和更新的大数据存储系统。它设计的目标是在满足低延迟读写需求的同时,提供强大的水平扩展性和高可用性,特别适用于在线分析处理(OLAP)场景...
一、Kudu简介 Kudu是一个分布式列式存储系统,其主要特点是支持低延迟的插入和更新操作,同时提供快速的在线查询能力。它通过使用一种混合的存储模型,结合了磁盘和内存的优势,能够实现高效的读写性能。Kudu适合...
#### 一、Kudu简介 Kudu是一款由Cloudera开发并开源的大数据存储引擎,旨在提供对大规模数据集进行高效存储和查询的能力。它特别适合处理实时分析场景下的高速数据写入与读取操作。本书《Getting Started with Kudu...
大数据基于列的数据库Kudu简介 Kudu是一个基于列的存储系统,可以提供低延迟的随机读写和高效的数据分析能力。下面是关于Kudu的详细知识点: 架构 Kudu采用Master-Slave形式的中心节点架构,管理节点被称作Kudu ...
### Kudu简介 Kudu是Microsoft开发的一个开源项目,它是Azure App Service平台的一部分,专门用于处理Web应用的部署和管理。Kudu不仅支持Git部署,还支持其他多种部署方式,如FTP、Zip部署、Web Deploy等。Kudu提供...
Kerberos认证简介 Kerberos 是一种网络认证协议,它提供基于票证的验证服务,确保用户和服务之间的通信是安全的。在Hadoop生态系统中,Kerberos通常被用来保护HDFS、HBase、Hive等组件的安全性。Kudu作为Hadoop...
课程简介 从零开始讲解大数据列式存储NoSQL数据库Kudu,基于Kudu构建高性能随机读写访问的数据存储系统,原理从入门到深入,搞定面试 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象...
#### Service Unavailable简介与原理 “Service Unavailable”通常是指服务器无法处理客户端的请求,最常见的原因是资源不足,包括但不限于IIS资源、CPU资源以及内存资源。这种状态码通常出现在HTTP响应中,表明...
### Hadoop生态圈简介 #### 一、什么是大数据 **1.1 大数据的基本特征** 大数据通常被定义为无法通过传统的数据库工具进行有效处理的数据集。这些数据集具有以下四个关键特征,通常被称为“4V”: - **数据规模...
首先,文档介绍了Sloth平台的架构,包括网易杭州研究院的大数据技术负责人&首席架构师的个人简介,以及数据平台数据务架构的总体设计。该平台主要依赖于Aliyun StreamCompute(galaxy),并且使用了Hive、Spark、...
1. **考拉数据发展简介**:考拉在大数据领域的实践始于对数据业务的深入理解和历史积累。随着业务的不断演进,数据业务从无到有,经历了从离线到准实时再到实时的转变,反映了对数据时效性的不断提升要求。 2. **...
6. 作者简介: - Todd Lipcon,Cloudera的工程师,Hadoop的早期用户以及ASF的活跃成员。他在Cloudera内部秘密开发了Kudu项目,并在2013年的中国Hadoop峰会上发表演讲。 综上所述,本文通过对Apache Hadoop生态系统...
- **Kudu**:一个高效的列式存储系统,专为实时分析设计,能够提供高性能的数据读写能力。 - **Impala**:与Hive类似,但采用了MPP架构,支持SQL查询,并直接与HDFS和HBase交互,提供了更快的查询速度。 - **Kylin**...
一、课程简介数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。 二、课程内容...
一、课程简介随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为...
#### 一、Presto简介 Presto是一款高性能、分布式SQL查询引擎,主要用于处理大规模的数据集。它能够跨多种数据源进行查询,包括Hadoop HDFS、Amazon S3、Kudu、RDBMS等,并且支持标准SQL语法。Presto因其出色的性能...
- **Spark SQL**:可以直接查询流数据,或将流数据写入Hive、Kudu、HBase等数据库。 - **MLlib**:使用机器学习算法分析流数据。 - **Caching/Persistence**:对流数据进行缓存,提高处理效率。 #### 五、流行实时...
#### 一、Ubuntu系统简介 Ubuntu是一款基于Debian的Linux操作系统,由Canonical Ltd公司维护和支持。它以其易用性、稳定性及安全性而闻名,在个人计算机用户、开发者乃至服务器领域中均有着广泛的应用。Ubuntu不仅...