`
grzrt
  • 浏览: 188806 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Apache Thrift入门1-架构&介绍

阅读更多

Thrift 是什么?
Thrift
源于大名鼎鼎的facebook之手,在2007facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的 facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传 输通信以及系统之间语言环境不同需要跨平台的特性。所以thrift可以支持多种程序语言,例如: C++, C#, Cocoa, Erlang, Haskell, Java, Ocami, Perl, PHP, Python, Ruby, Smalltalk. 在多种不同的语言之间通信thrift可以作为二进制的高性能的通讯中间件,支持数据(对象)序列化和多种类型的RPC服务。Thrift适用于程序对程 序静态的数据交换,需要先确定好他的数据结构,他是完全静态化的,当数据结构发生变化时,必须重新编辑IDL文件,代码生成,再编译载入的流程,跟其他 IDL工具相比较可以视为是Thrift的弱项,Thrift适用于搭建大型数据交换及存储的通用工具,对于大型系统中的内部数据传输相对于JSON xml无论在性能、传输大小上有明显的优势。

ThriftIDL(interface definition language)描述性语言的一个具体实现,关于IDL的话题我们可以追溯到CORBA盛行1999-2001(Common Object Request Broker Architecture/公用对象请求代理体系结构),在 IDL 中我们似乎不会忘记到这几个关键字:moduleinterfacestringlong int,我还记得IDL利用module来创建名称空间,并且准确地映射为 Java package,这些特性几乎和现在thrift的特性完全相同,所以thrift的设计思想和理念绝不是什么从火星来的new idea,看看在那个CORBA盛行的年代人们提出的概念,如图所示CORBA 请求的各个部分,回头我们再与thrift进行对比一下:

Common Object Request Broker Architecture

Thrift 基础架构
Thrift
是一个服务端和客户端的架构体系,从我个人的感官上来看Thrift是一个类似XML-RPC+Java-to- IDL+Serialization Tools=Thrift 的东东,Thrift 具有自己内部定义的传输协议规范(TProtocol)和传输数据标准(TTransports),通过IDL脚本对传输数据的数据结构(struct) 和传输数据的业务逻辑(service)根据不同的运行环境快速的构建相应的代码,并且通过自己内部的序列化机制对传输的数据进行简化和压缩提高高并发、 大型系统中数据交互的成本,下图描绘了Thrift的整体架构,分为6个部分:1.你的业务逻辑实现(You Code) 2.客户端和服务端对应的Service 3.执行读写操作的计算结果4.TProtocol 5.TTransports 6.底层I/O通信
thrift

图 中前面3个部分是1.你通过Thrift脚本文件生成的代码,2.图中的褐色框部分是你根据生成代码构建的客户端和处理器的代码,3.图中红色的部分是2 端产生的计算结果。从TProtocol下面3个部分是Thrift的传输体系和传输协议以及底层I/O通信,Thrift并且提供 堵塞、非阻塞,单线程、多线程的模式运行在服务器上,还可以配合服务器/容器一起运行,可以和现有JEE服务器/Web容器无缝的结合。

数据类型
* Base Types
:基本类型
* Struct
:结构体类型
* Container
:容器类型,即ListSetMap
* Exception
:异常类型
* Service
: 定义对象的接口,和一系列方法

协议
Thrift
可以让你选择客户端与服务端之间传输通信协议的类别,在传输协议上总体上划分为文本(text)和二进制(binary)传输协议, 为节约带宽,提供传输效率,一般情况下使用二进制类型的传输协议为多数,但有时会还是会使用基于文本类型的协议,这需要根据项目/产品中的实际需求:
* TBinaryProtocol –
二进制编码格式进行数据传输。
* TCompactProtocol –
这种协议非常有效的,使用Variable-Length Quantity (VLQ) 编码对数据进行压缩。
* TJSONProtocol –
使用JSON的数据编码协议进行数据传输。
* TSimpleJSONProtocol –
这种节约只提供JSON只写的协议,适用于通过脚本语言解析
* TDebugProtocol –
在开发的过程中帮助开发人员调试用的,以文本的形式展现方便阅读。

传输层
* TSocket-
使用堵塞式I/O进行传输,也是最常见的模式。
* TFramedTransport-
使用非阻塞方式,按块的大小,进行传输,类似于Java中的NIO
* TFileTransport-
顾名思义按照文件的方式进程传输,虽然这种方式不提供Java的实现,但是实现起来非常简单。
* TMemoryTransport-
使用内存I/O,就好比Java中的ByteArrayOutputStream实现。
* TZlibTransport-
使用执行zlib压缩,不提供Java的实现。

服务端类型
* TSimpleServer -
单线程服务器端使用标准的堵塞式I/O
* TThreadPoolServer -
多线程服务器端使用标准的堵塞式I/O
* TNonblockingServer –
多线程服务器端使用非堵塞式I/O,并且实现了Java中的NIO通道。

谁在用thrift

Quara
Thrift
用于Quara系统后端数据的通信,服务端是用C++来实现的,客户端则是python
Quara
背景:Quara是在线问答服务公司,类似新浪微博和百度知道的合体,消息灵通人士透露,去年Quara获得了1400万美元投资,目前他们只有9名员工。
原文:http://www.philwhln.com/quoras-technology-examined#thrift

Evernote
Thrift
用于在多种Evernote API平台开发的客户端与Evernote服务器之间的通信与数据传输,Evernote API定义了自己的Evernote Data Access and Management (EDAM) 协议规范,让客户端使用更小的网络带宽上传、下载文件和在线即时搜索服务。
Evernote
背景:EverNote是一款非常著名的免费软件,它最大的特点就是支持多平台,而且数据能通过网络互相同步。譬如说,你可以随时在手机上的Evernote新增笔记,回家后在电脑上也能看到它了!
原文:http://www.evernote.com/about/developer/api/evernote-api.htm

HBase 中的Thrift
Thrift
用于HBase中是为了提供跨平台的服务接口,在HBase 中可以使用[hbase-root]/bin/hbase thrift start 命令启动涵盖ThriftHBase服务端,客户端通过thrift的命令生成不同版本的客户端代码,根据定义的数据格式,对远程HBase服务端进行 操作,是除了REST远程方法调用的另一种途径。
参见:http://wiki.apache.org/hadoop/Hbase/ThriftApi

更多资料请阅读:http://wiki.apache.org/thrift/PoweredBy

Thrift与其他传输方式的比较
xml
JSON相比体积太大,但是xml传统,也不算复杂。
json
体积较小,新颖,但不够完善。
thrift
体积超小,使用起来比较麻烦,不如前两者轻便,但是对于1.高并发、2.数据传输量大、3.多语言环境, 满足其中2点使用 thrift还是值得的。

假定需要传输相同的内容,但使用不同的方式从 1、传输内容所产生的大小 2、传输过程中服务端和客户端所产生的开销,这2个方便进行比较。使用Thrift和其他方式的所产生的内容大小比较结果如下:
thrift-size
在上图中我们能明显看出,最臃肿的是RMI,其次是xml,使用ThriftTCompactProtocol协议和Google Protocol Buffers 相差的不算太多,相比而言还是Google Protocol Buffers效果最佳。

使用Thrift 中的协议和其他方式的所产生的运行开销比较结果如下:
thrift-load

在上图中我们能明显看出,最占资源是REST2中协议,使用ThriftTCompactProtocol协议和Google Protocol Buffers 相差的不算太多,相比而言ThriftTCompactProtocol协议效果最佳。

一、开发环境(清单1)
1.
操作系统
Server-Linux / Client-WinXP
2.SDK
Sun JDK1.5+

3.需要的jar依赖包
libthrift.jar
slf4j-api-1.5.8.jar
slf4j-log4j12-1.5.8.jar
log4j-1.2.15.jar

4.编译工具
Apache Ant & Apache ivy

二、安装/配置 (清单2)
1.
下载thrift源文件
http://labs.renren.com/apache-mirror//incubator/thrift/0.5.0-incubating/thrift-0.5.0.tar.gz

2.
编译thrift源文件
1)
解压 thrift-0.5.0.tar.gz
2)
ant编译源代码,进入x:/thrift-0.5.0/lib/java目录,执行ant,通过ant中的ivy工具会自动从站点下载所需要的依赖包,编译完成后如图所示:
http://zcitrq.bay.livefilestore.com/y1pA4vlwBHBEPK_vNd4oVbU_egUdTTdw7fKAW_rmoBiqEg-ZO8rfDednCMCylQqrM1SpKVOp49bbbD0rfMhiaRHwq93o5RHaQUG/complie-thirtf.png?psid=1
3)
编译过程中下载的依赖包在x:/thrift-0.5.0/lib/java/build/ivy/lib 目录下可以看见下载的jar依赖包,将编译成功以后的jar包加入Eclipse的开发环境中。

三、脚本文件(清单3)
1.
创建脚本
创建脚本文件 testJava.thrift ,脚本文件内容如下:
namespace java com.javabloger.gen.code #
注释1 定义生成代码的命名空间,与你需要定义的package相对应。

struct Blog { # 注释2.1 定义实体名称和数据结构,类似你业务逻辑中的pojo get/set
1: string topic #
注释2.2 参数类型可以参见
Thrift wiki
2: binary content
3: i64 createdTime
4: string id
5: string ipAddress
6: map<string,string> props
}
service ThriftCase { #
注释3 代码生成的类名,你的业务逻辑代码需要实现代码生成的ThriftCase.Iface接口
i32 testCase1(1:i32 num1, 2:i32 num2, 3:string num3) #
注释4.1 方法名称和方法中的入参,入参类型参见wiki
list<string> testCase2(1:map<string,string> num1)
void testCase3()
void testCase4(1:list<Blog> blog) #
注释4.2 list thrift中基本数据类型中的一种,list中包含的Blog对象是上面struct中定义的
}

2.运行脚本
1)
thrift 站点下载windows版本的编译工具,下载地址:http://labs.renren.com/apache-mirror//incubator /thrift/0.5.0-incubating/thrift-0.5.0.exe
2)
通过Thrift的脚本文件,运行 thrift 命令创建生成的代码,例如:执行 thrift -gen java x:/testJava.thrift 命令,在当前运行的盘符下,可看见gen-java目录,在这里目录中可以看见生成的java代码,更多thrift 命令内容,请参见thrift命令自带的help

3.Thrift 中的基本数据类型 (清单4)
类型 描述
bool true, false
byte 8
位的有符号整数
i16 16
位的有符号整数
i32 32
位的有符号整数
i64 64
位的有符号整数
double 64
位的浮点数
string UTF-8
编码的字符串
binary
字符数组
struct
结构体
list
有序的元素列表,类似于STLvector
set
无序的不重复元素集,类似于STLset
map key-value
型的映射,类似于STLmap
exception
是一个继承于本地语言的exception基类
service
服务。包含多个函数接口(纯虚函数)

四、创建代码(清单5)
我将示例工程分了4个包,如下所示:
/com/javabloger
/client # 1.
客户端测试代码
/gen/code # 2.
通过脚本生成的class
/layer/transport # 3.
服务器端代码和定义的传输协议
/layer/business # 4.
具体的业务逻辑代码
具体代码内容这里就不阐述了,重点是要明白代码的结构和层次关系,其次是里面主要的几个类的含义,至于代码是怎么写的并不是非常重要,仅仅是我个人观点,仅供参考,谢谢。

代码示例的下载地址: http://javabloger-mini-books.googlecode.com/files/Thritf.zip

五、运行程序
先运行server,再运行client ,客户端向服务器端发送数据调用服务器端的4个方法,服务器端被传入客户端数据,运行效果如图所示:
run-thirtf-code.png

 

分享到:
评论

相关推荐

    thrift入门学习教程

    ### Thrift入门学习教程 #### 一、Thrift概述 Thrift是由Facebook开发并在2007年贡献给Apache基金会的一款开源项目。它的主要目的是解决跨平台、跨语言的系统间大数据量传输通信问题。在早期,Facebook面临着系统...

    thrift入门教程+代码

    1. 安装Thrift编译器:根据操作系统和需求,从Apache Thrift官网下载相应版本的编译器。 2. 编写IDL文件:定义你的服务接口和数据类型。 3. 生成代码:运行Thrift编译器,指定输入的IDL文件和目标语言,编译器会...

    Hive 入门教程-Apache Hive入门介绍与HQL语法解析

    ### Apache Hive 入门教程详解 #### 一、Hive简介与背景 Hive 是一个构建在 Hadoop 之上的数据仓库基础设施。它的设计目的是为了简化大数据的存储、查询和分析过程。通过引入类似 SQL 的查询语言(HQL),使得传统...

    thrift入门

    Thrift 的架构主要由六个部分组成:1. 业务逻辑实现(You Code); 2. 客户端和服务端对应的 Service; 3. 执行读写操作的计算结果;4. TProtocol; 5. TTransports; 6. 底层 I/O 通信。Thrift 提供了堵塞、非阻塞、单...

    thrift入门简介共22页.pdf.zip

    Thrift是一种开源的跨语言服务开发框架,由Facebook于2007年开发并开源,后来成为Apache软件基金会的顶级项目。它允许程序员定义服务接口,然后自动生成各种编程语言的代码,使得服务提供者和服务消费者可以使用不同...

    apache-cassandra-0.8.4-bin.tar.gz 分布式数据库

    1. **分布式架构**:Cassandra采用了无中心节点的分布式架构,每个节点都与其他节点对等通信,允许数据复制和负载均衡。这种设计使得系统能够容忍节点故障,保证服务的高可用性。 2. **一致性与可用性**:Cassandra...

    尚硅谷大数据技术之 Flume 1

    【尚硅谷大数据技术之 Flume 1】章节主要介绍了Apache Flume的基础知识,这是一个用于高效收集、聚合和传输大规模日志数据的分布式服务。Flume以其流数据流的简单灵活架构设计,具备高可靠性和容错性,适用于实时...

    hadoop集群配置之————flume安装配置(详细版)

    Apache Flume是一个分布式、可靠且可用的系统,...以上内容详细介绍了Flume的核心概念、架构组件、系统要求、安装步骤和一个简单的入门案例。理解这些知识点对于成功配置和使用Flume来收集、聚合和传输数据至关重要。

    ApacheCamel快速入门(上)

    Apache Camel 的灵活性和广泛支持使其在分布式系统和微服务架构中成为不可或缺的工具。通过深入理解和实践,你可以构建出高效、可扩展的集成解决方案。在后续的ESB中间件设计中,Apache Camel 的协议转换和消息路由...

    HBase技术介绍简介 NOSQL数据库 入门

    ### HBase技术介绍与NoSQL数据库入门 #### HBase概述 HBase,全称为Hadoop Database,是一款基于Apache Hadoop生态系统的开源、分布式、面向列的NoSQL数据库系统。它被设计用于提供高可靠性、高性能的数据存储解决...

    hbase入门到精通

    ### HBase从入门到精通——关键技术点解析 #### 一、HBase技术概览 **HBase**(Hadoop Database)是一种分布式、可扩展的NoSQL数据库系统,它基于Google Bigtable论文的思想构建而成,并且作为Apache Hadoop生态...

    尚硅谷大数据技术之Flume笔记1

    【尚硅谷大数据技术之Flume笔记1】 Flume是Cloudera开发的一款专门用于大数据收集、聚合和传输的系统,其设计目标是提供高可用、高可靠性和分布式的服务。Flume基于流处理架构,简化了日志数据的管理和传输过程。 ...

    Hbase 官方中文文档

    HBase官方中文文档概述了Apache HBase TM的基本概念、配置方法、升级策略、shell使用、数据模型、架构设计、安全机制、API接口、性能调优以及故障排除等多方面的知识。HBase是一个开源的非关系型分布式数据库(NoSQL...

    hadoop的数据仓库hive手册

    - **灵活的数据格式**: Hive 不要求数据必须采用特定的格式,它可以很好地处理多种数据格式,包括但不限于 Thrift、控制分隔符以及其他特殊的数据格式。 - **丰富的文档支持**: Hive 本身提供了详尽的文档资料,涵盖...

    HBase 官方文档

    - **Thrift**:解释 HBase 的 Thrift 接口,并给出示例。 - **C/C++ Apache HBase Client**:提供 C/C++ 开发者使用的 HBase 客户端接口。 #### 十二、HBase 性能调优 - **操作系统**:指导如何调整操作系统设置以...

    大数据技术之Flume.docx

    **1.2 Flume组成架构** Flume的核心组件包括Agent、Source、Channel、Sink以及Event。这些组件协同工作以实现数据的有效收集和传输。 ##### 1.2.1 Agent - **定义**:Agent是一个独立运行的JVM进程,主要负责数据...

    HBase中文API

    1. **入门** - **介绍**: HBase为大数据处理提供了实时读写能力,特别适合于存储海量稀疏数据。 - **快速开始**: 开发者通常需要了解如何创建表、插入数据、查询数据以及进行基本的数据操作。 2. **Apache HBase...

Global site tag (gtag.js) - Google Analytics