`
gaojingsong
  • 浏览: 1210886 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

【Apache Tajo介绍】

阅读更多

Apache Tajo 介绍

Apache Tajo is a robust big data relational and distributed data warehouse system for Apache Hadoop. Tajo is designed for low-latency and scalable ad-hoc queries, online aggregation, and ETL (extract-transform-load process) on large-data sets stored on HDFS (Hadoop Distributed File System) and other data sources. By supporting SQL standards and leveraging advanced database techniques, Tajo allows direct control of distributed execution and data flow across a variety of query evaluation strategies and optimization opportunities.

Tajo的设计思想类似于Tenzing,它充分借鉴了MapReduce和DataBase的优势,使其具有Hive的扩展性和容错性好的优点,但同时性能比Hive高不少。



 

Tajo Features

Fast and Efficient

Fully distributed SQL query processing engine

Advanced query optimization such as cost-based and progressive query optimization

Interactive analysis on reasonable data set

Scalable

Fault tolerance and dynamic scheduling for long-running queries

Out-of-core algorithms for data sets larger than main memory

Compatible

ANSI/ISO SQL standard compliance

Hive MetaStore access support

JDBC driver support

Various file formats support, such as CSV, JSON, RCFile, SequenceFile, ORC and Parquet

Easy

User-defined functions

Interactive shell

Convenient Backup/Restore utility

Asynchronous/Synchronous Java API

 

 

Tajo采用了Master-worker架构,具体如下:

  1) TajoMaster:为客户端提供查询服务和管理各个QueryMaster。

 2)QueryMaster:负责一个query的解析、优化与执行,它与多个task runner worker协同工作,完成一个query的计算。

  • 大小: 33 KB
0
1
分享到:
评论

相关推荐

    tajo-proxy:Tajo代理

    - 版本信息:这个版本号表明了Tajo代理的特定发行版,0.9.1是Tajo项目的版本,而CDH5.2.0是Cloudera Distribution Including Apache Hadoop (CDH)的一个版本,包含了对Tajo的支持。 - 兼容性:CDH5.2.0通常意味着...

    python-tajo-client

    Python Tajo 客户端是用于与Apache Tajo数据处理系统交互的一种工具,它允许开发者通过Python编程语言来执行查询、管理数据以及进行其他相关的操作。Tajo是一个分布式、低延迟的数据处理系统,设计用于大规模的数据...

    TadpoleForDB工具

    Tadpole DB Hub是统一基础架构工具,是基于各种环境的界面,用于管理Altibase,Apache Hive,Apache Tajo,Amzaon DynamoDB,Amazon RDS,Amazon Redshift,Elasticsearch,MySQL,MariaDB,Oracle,SQLite,Tibero...

    Tadpole DB Hub:基于Web的数据库协作工具-开源

    原始主页:https://github.com/hangum/TadpoleForDBTools它是管理Altibase,Amazon RDS,Apache Hive,Apache Cassandra,Apache Tajo,MongoDB,CUBRID,MariaDB,MySQL,Oracle,MSSQL,SQLite,Tibero, Web...

    大数据平台技术框架选型分析.pdf

    相关资料中提到了多个开源工具,如 Presto、Phoenix、Stinger、Shark、Pig、Cloudera Impala、Apache Drill 和 Apache Tajo,这些工具在大数据查询和处理方面各有特色,可以根据具体业务需求进行选择。 综上所述,...

    主流开源SQL引擎分析.docx

    本篇文章将探讨几个主流的开源SQL引擎,包括Hive、Impala、Spark SQL、Drill、HAWQ和Presto,以及Calcite、Kylin、Phoenix、Tajo和Trafodion等。此外,也会提及两个商业化产品——Oracle Big Data SQL和IBM Big SQL...

    大数据平台技术框架选型资料.pdf

    最后,相关资料如Presto、Stinger、Phoenix等查询引擎,以及Shark、Pig、Cloudera Impala、Apache Drill和Tajo等工具,这些都是大数据分析领域的关键组件,可以根据实际需求和平台兼容性进行选择。 总的来说,...

    通用大数据存储和分析处理平台-Hadoop.pdf

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,旨在处理和存储大规模数据。最初设计目的是为了构建搜索引擎的网页索引,但随着时间的发展,Hadoop已经成为大数据处理领域的重要工具,广泛应用于数据存储、...

    通用大数据存储和分析处理平台-Hadoop.docx

    它由Apache基金会开发,旨在提供可靠、可扩展的数据处理解决方案。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce。 1. **HDFS(Hadoop Distributed File System)**: - **概述**:...

    大数据图标大全.docx

    43. **Tajo**: 在Hadoop上的大数据仓库系统,支持SQL查询和复杂分析。 44. **Trafodion**: 事务处理SQL-on-Hadoop数据库,为企业级应用提供ACID特性。 45. **Phoenix**: 提供对HBase的SQL接口,支持OLTP和操作型...

Global site tag (gtag.js) - Google Analytics