Apache Tajo 介绍
Apache Tajo is a robust big data relational and distributed data warehouse system for Apache Hadoop. Tajo is designed for low-latency and scalable ad-hoc queries, online aggregation, and ETL (extract-transform-load process) on large-data sets stored on HDFS (Hadoop Distributed File System) and other data sources. By supporting SQL standards and leveraging advanced database techniques, Tajo allows direct control of distributed execution and data flow across a variety of query evaluation strategies and optimization opportunities.
Tajo的设计思想类似于Tenzing,它充分借鉴了MapReduce和DataBase的优势,使其具有Hive的扩展性和容错性好的优点,但同时性能比Hive高不少。
Tajo Features
Fast and Efficient
Fully distributed SQL query processing engine
Advanced query optimization such as cost-based and progressive query optimization
Interactive analysis on reasonable data set
Scalable
Fault tolerance and dynamic scheduling for long-running queries
Out-of-core algorithms for data sets larger than main memory
Compatible
ANSI/ISO SQL standard compliance
Hive MetaStore access support
JDBC driver support
Various file formats support, such as CSV, JSON, RCFile, SequenceFile, ORC and Parquet
Easy
User-defined functions
Interactive shell
Convenient Backup/Restore utility
Asynchronous/Synchronous Java API
Tajo采用了Master-worker架构,具体如下:
1) TajoMaster:为客户端提供查询服务和管理各个QueryMaster。
2)QueryMaster:负责一个query的解析、优化与执行,它与多个task runner worker协同工作,完成一个query的计算。
相关推荐
- 版本信息:这个版本号表明了Tajo代理的特定发行版,0.9.1是Tajo项目的版本,而CDH5.2.0是Cloudera Distribution Including Apache Hadoop (CDH)的一个版本,包含了对Tajo的支持。 - 兼容性:CDH5.2.0通常意味着...
Python Tajo 客户端是用于与Apache Tajo数据处理系统交互的一种工具,它允许开发者通过Python编程语言来执行查询、管理数据以及进行其他相关的操作。Tajo是一个分布式、低延迟的数据处理系统,设计用于大规模的数据...
Tadpole DB Hub是统一基础架构工具,是基于各种环境的界面,用于管理Altibase,Apache Hive,Apache Tajo,Amzaon DynamoDB,Amazon RDS,Amazon Redshift,Elasticsearch,MySQL,MariaDB,Oracle,SQLite,Tibero...
原始主页:https://github.com/hangum/TadpoleForDBTools它是管理Altibase,Amazon RDS,Apache Hive,Apache Cassandra,Apache Tajo,MongoDB,CUBRID,MariaDB,MySQL,Oracle,MSSQL,SQLite,Tibero, Web...
相关资料中提到了多个开源工具,如 Presto、Phoenix、Stinger、Shark、Pig、Cloudera Impala、Apache Drill 和 Apache Tajo,这些工具在大数据查询和处理方面各有特色,可以根据具体业务需求进行选择。 综上所述,...
本篇文章将探讨几个主流的开源SQL引擎,包括Hive、Impala、Spark SQL、Drill、HAWQ和Presto,以及Calcite、Kylin、Phoenix、Tajo和Trafodion等。此外,也会提及两个商业化产品——Oracle Big Data SQL和IBM Big SQL...
最后,相关资料如Presto、Stinger、Phoenix等查询引擎,以及Shark、Pig、Cloudera Impala、Apache Drill和Tajo等工具,这些都是大数据分析领域的关键组件,可以根据实际需求和平台兼容性进行选择。 总的来说,...
Hadoop是一个开源的分布式计算框架,由Apache基金会开发,旨在处理和存储大规模数据。最初设计目的是为了构建搜索引擎的网页索引,但随着时间的发展,Hadoop已经成为大数据处理领域的重要工具,广泛应用于数据存储、...
它由Apache基金会开发,旨在提供可靠、可扩展的数据处理解决方案。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce。 1. **HDFS(Hadoop Distributed File System)**: - **概述**:...
43. **Tajo**: 在Hadoop上的大数据仓库系统,支持SQL查询和复杂分析。 44. **Trafodion**: 事务处理SQL-on-Hadoop数据库,为企业级应用提供ACID特性。 45. **Phoenix**: 提供对HBase的SQL接口,支持OLTP和操作型...