My Octopress Blog

life and I

Thrift

| Comments

简介

[Apache Thrift][at]是一个跨平台的可伸缩的网络服务开发平台。通过其代码生成器 生成的不同语言的代码可以用类似的接口进行调用。支持语言如下

  • C++
  • Java
  • Python
  • PHP
  • Ruby
  • Erlang
  • Perl
  • Haskell
  • C#
  • Cocoa
  • JavaScript
  • Node.js
  • Smalltalk
  • OCaml
  • Delphhi
  • other…

编译安装

参见Debian or Ubuntu setup

创建Makefile

默认

1
./configure

但是生成的在本机遇到两个问题

erlang

通过git下载jsx失败

解决:通过配置项去掉erlang支持

1
2
3
4
5
6
./configure --without=erlang

**ruby**
ruby_noexec_wrapper错误

解决:通过配置去掉ruby支持

bash ./configure –without=ruby

1
2
3
4
**依赖库**
libboost

如果安装了libboost,需要指定其库位置

bash ./configure –with-boost=/usr/local

1
javac

bash ./configure JAVAC=/usr/bin/javac

1
###编译

bash make

1
###安装

bash make install

1
2
3
4
5
6
7
8
###可能问题

**compiler/cpp/thriftl.cc:2190: undefined reference to yywrap'”**
需要安装 Flex library 

**mv: cannot stat “'.deps/TBinaryProtocol.Tpo': No such file or directory”**

重新配置

bash –enable-libtool-lock

1
###安装

bash make install

1
2
3
4
5
6
7
##自带教程


###C++

自带教程在根目录的tutorial目录中,包含了一些常用语言的例子。以c++为例,
进行如下操作

bash $ thrift -r –gen cpp tutorial.thrift $ cd Cpp $ Make

1
2
3
4
5
6
7
8
9
10
**htons, htonl找不到**
解决:需要添加宏定义-DHAVE_INTTYPES_H -DHAVE_NETINET_IN_H

**undefined reference to `apache::thrift::transport::TServerSocket::TServerSocket(int)'**
解决:将-lthrift移动到最后

**修改boost包含目录**
因为boost 1.49以后安装目录和1.33不同,需要确定后修改相关定义

最后Makefile修改如下

Makefile BOOST_DIR = /usr/local/include/boost/ THRIFT_DIR = /usr/local/include/thrift LIB_DIR = /usr/local/lib

GEN_SRC = ../gen-cpp/SharedService.cpp ../gen-cpp/shared_types.cpp ../gen-cpp/tutorial_types.cpp ../gen-cpp/Calculator.cpp

default: server client

server: CppServer.cpp

g++ -DHAVE_INTTYPES_H -DHAVE_NETINET_IN_H -o  CppServer -I${THRIFT_DIR} -I${BOOST_DIR} -I../gen-cpp -L${LIB_DIR}  CppServer.cp

client: CppClient.cpp

g++  -DHAVE_INTTYPES_H -DHAVE_NETINET_IN_H -o CppClient -I${THRIFT_DIR} -I${BOOST_DIR} -I../gen-cpp -L${LIB_DIR} CppClient.cpp

clean:

$(RM) -r CppClient CppServer
1
###Java

bash $ thrift -r –gen java tutorial.thrift $ cd java $ ant

1
运行的话,直接运行

bash $./JavaServer & $./JavaClient

1
###Python

bash $ thrift -r –gen py tutorial.thrift

1
2
3
4
5
6
**import Thrift error**
没找到包路径,需要在~/.bashrc中添加export PYTHONPATH=/usr/lib/python2.7/site-packages/
然后重启terminal

**TypeError: getaddrinfo() argument 1 must be string or None**
修改如下

python transport = TSocket.TServerSocket(port=port)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
##教程

###The Missing Guide

####语法类型

#####Type

包含基本类型,用户定义结构,容器类型,异常以及服务定义

**基本类型**

没有无符号类型,因为很多生成语言不支持该类型,比如java

- bool: A boolean value (true or false), one byte

- byte: A signed byte

- i16: A 16-bit signed integer

- i32: A 32-bit signed integer

- i64: A 64-bit signed integer

- double: A 64-bit floating point number

- string: Encoding agnostic text or binary string

**容器**

因为容器的复杂性,thrift没有消息长度,但是过于复杂的容器会阻碍消息的编解码

- list<t1>: An ordered list of elements of type t1. May contain duplicates.

- set<t1>: An unordered set of unique elements of type t1.

- map<t1,t2>: A map of strictly unique keys of type t1 to values of type t2.

**自定义结构和异常**

自定义结构类似于c的语法,而异常类似于把结构定义中的struct变为exception

**服务**

和定义接口或者纯虚类一样

#####Typedef

类似c/c++

c typedef i32 MyInteger typedef Tweet ReTweet

1
#####枚举

c enum TweetType {

TWEET,       // 1
RETWEET = 2, // 2
DM = 0xa,    // 3
REPLY

} // 4

struct Tweet { 1: required i32 userId; 2: required string userName; 3: required string text; 4: optional Location loc; 5: optional TweetType tweetType = TweetType.TWEET // 5

   16: optional string language = "english"

}

1
2
3
4
5
和protobuf不同的是thrift不支持包含枚举(包含结构)。枚举值是32位的正数。

#####注释

支持shell, c/c++, java风格注释

This is a valid comment.

/ * This is a multi-line comment. * Just like in C. /

// C++/Java style single-line comments work just as well.

1
#####命名空间

c namespace cpp com.example.project // 1 namespace java com.example.project // 2

1
2
3
4
5
6
1. 在cpp中展开为 *namespace com { namespace example { namespace project {*
2. 在java中展开为 *package com.example.project*

#####引用外部文件

可以引用外部其他thrift文件,搜索目录为当前目录,需要注意的是,thrift文件后缀名为thrift,使用其他文件中结构时,需要加前缀

c include “tweet.thrift” // 1 … struct TweetSearchResult {

    1: list<tweet.Tweet> tweets; // 2

}

1
2
3
4
1. 后缀名为".thrift"
2. 使用Tweet结构需要添加tweet前缀

#####常量

c const i32 INT_CONST = 1234; // 1 const map<string,string> MAP_CONST = {“hello”: “world”, “goodnight”: “moon”}

1
2
3
4
#####定义结构

结构是thrift IDL的基础单元,每个结构由不同区域组成,每个区域有唯一的id, 一个类型说明, 一个变量名以及一个可选的默认值
下面是一个需要完成类似Tweeter的结构Tweet

c

struct Tweet { 1: required i32 userId; // 1 2: required string userName; // 2 3: required string text; 4: optional Location loc; // 3 16: optional string language = “english” // 4 }

struct Location { // 5 1: required double latitude; 2: required double longitude; }

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1. 所有区域id必须唯一且为正数
2. 区域需要标识为 *required* 或者 *optional*
3. 结构可以包含其他结构
4. 可以为变量选择默认值
5. 可以在一个thrift文件中定义多个结构

区域id为解析器标识不同的变量,一旦定义就不要修改。标识了required的变量但是没有赋值,thrift序列化时会报异常。如果标识了optional
且赋了默认值的变量解析消息时不存在,那么解析后的结构里面会对其赋予默认值。

对于将变量设置为required需要非常小心,一旦赋予后,改变它为optional会引起各种问题,老的解析器会因此报异常。部分使用者认为required
这种设置带来的问题比好处多,因此只使用optional或者repeat,但是这个观点并未被普遍承认。


#####定义服务

thrift定义了一个跨语言的RPC框架。可以帮助用户快速构建网络应用,这是thrift的一个主要特点。
其定义类似于java的接口定义,thrift会根据你选择的语言类型默认生成客户端和服务端代码。

c service Twitter {

// A method definition looks like C code. It has a return type, arguments,
// and optionally a list of exceptions that it may throw. Note that argument
// lists and exception list are specified using the exact same syntax as
// field lists in structs.
void ping(),                                    // 1
     bool postTweet(1:Tweet tweet);                  // 2
TweetSearchResult searchTweets(1:string query); // 3

// The 'oneway' modifier indicates that the client only makes a request and
// does not wait for any response at all. Oneway methods MUST be void.
oneway void zip()                               // 4

}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
1. 逗号和分号都可以作为结束
2. 参数必须带类型和id
3. 返回值必须带类型
4. oneway返回值必须为void

####代码生成

下面图标识的thrift的网络模型

{% img %}

#####Transport

Transport层提供了一个抽象的网络读写接口,解耦网络层和其他层之间的关系(比如序列化/反序列化)
Transport层接口如下

- open

- close

- read

- write

- flush

在Transport层上thrift还定义了ServerTransport层来提供接受或者创建transport对象的功能。顾名思义,该层用于为进入的链接创建新的
transport对象,其包含接口如下



- open

- listen

- accept

- close

对于thrift支持的语言来说,下面的接口都是可用的

- file: read/write to/from a file on disk

- http: as the name suggests

#####Protocol

负责内存中的数据结构和网络协议的转化

py writeMessageBegin(name, type, seq)

writeMessageEnd()
writeStructBegin(name)
writeStructEnd()
writeFieldBegin(name, type, id)
writeFieldEnd()
writeFieldStop()
writeMapBegin(ktype, vtype, size)
writeMapEnd()
writeListBegin(etype, size)
writeListEnd()
writeSetBegin(etype, size)
writeSetEnd()
writeBool(bool)
writeByte(byte)
writeI16(i16)
writeI32(i32)
writeI64(i64)
writeDouble(double)

writeString(string)

name, type, seq = readMessageBegin()
readMessageEnd()
name = readStructBegin()
readStructEnd()
name, type, id = readFieldBegin()
readFieldEnd()
k, v, size = readMapBegin()
readMapEnd()
etype, size = readListBegin()
readListEnd()
etype, size = readSetBegin()
readSetEnd()
bool = readBool()
byte = readByte()
i16 = readI16()
i32 = readI32()
i64 = readI64()
double = readDouble()

string = readString()

1
2
3
4
5
6
7
8
9
10
thrift的协议格式是流式的,不需要应用层进行显式的分页,因此对于thrift格式来说,复杂数据结构的大小没必要事先定义,比如string的长度
以及list内的个数。thrift支持三种编码方式

- binary: 简单的二进制编码
- compact: 压缩编码,参见[THRIFT-110](https://issues.apache.org/jira/browse/THRIFT-110)
- json:

#####Processor

Processor封装了从流中读取和写入的函数,读取和写入的都是Protocol对象,简单例子如下

java interface TProcessor {

    bool process(TProtocol in, TProtocol out) throws TException

}

1
2
3
4
5
6
7
8
9
10
11
12
由特定代码生成的服务中的Processor,在流中读取数据,将结构委托给相应的处理程序,然后将处理结果的对象写入流中

#####Server

一个服务具有上面描述的所有性质

- 创建一个transport
- 为每个transport创建一个protocol
- 根据读取/写入protocol创建processor
- 等待链接接入并进行处理

IDL例子

namespace cpp thrift.example namespace java thrift.example

enum TweetType {

TWEET,
RETWEET = 2,
DM = 0xa,
REPLY

}

struct Location { 1: required double latitude; 2: required double longitude; }

struct Tweet { 1: required i32 userId; 2: required string userName; 3: required string text; 4: optional Location loc; 5: optional TweetType tweetType = TweetType.TWEET; 16: optional string language = “english”; }

typedef list TweetList

struct TweetSearchResult { 1: TweetList tweets; }

const i32 MAX_RESULTS = 100;

service Twitter {

void ping(),
     bool postTweet(1:Tweet tweet);
TweetSearchResult searchTweets(1:string query);
oneway void zip()

} “`

备注

thrift序列化属于传值调用,它将IDL中的值全部分配空间,而不是给未赋值的元素设置null。这样可能会导致内存占用多。service定义的函数在动态语言里 无法返回null,因此需要空值时首先初始化一个空的结构然后进行返回。对于transport可能会因为调用不同参数的同名函数导致彼此通讯异常。比如 初始版本的service含有postTweet(1: Tweet tweet), 但是新版本中转变为postTweet(1: Tweet tweet, 2: string group),则老版本中client 端调用该函数,而server端调用新版本进行解析则会导致新定义的参数为空。

thrift可以保持前向和后向的兼容性,可以在老的message中添加新的字段不会影响彼此解析,但是需要注意的是

  • 不要修改tag值
  • 新添加的字段定义为optional
  • 不再需要的字段可以被移除,只要其tag值不再使用
  • 可以修改默认值,但是发送端是无法将修改的默认值通过网络传输给接收端的

资源

pt包含部分thrift序列化方法 Thrift: The Missing Guide这是一篇教程文档

Comments