`
cxshun
  • 浏览: 724164 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Protobuffer和json深度对比

 
阅读更多

JSON相信大家都知道是什么东西,如果不知道,那可就真的OUT了,GOOGLE一下去。这里就不介绍啥的了。

Protobuffer大家估计就很少听说了,但如果说到是GOOGLE搞的,相信大家都会有兴趣去试一下,毕竟GOOGLE出口,多属精品。

Protobuffer是一个类似JSON的一个传输协议,其实也不能说是协议,只是一个数据传输的东西罢了。

那它跟JSON有什么区别呢?

跨语言,这是它的一个优点。它自带了一个编译器,protoc,只需要用它进行编译,可以编译成JAVApythonC++代码,暂时只有这三个,其他就暂时不要想了,然后就可以直接使用,不需要再写任何其他代码。连解析的那些都已经自带有的。JSON当然也是跨语言的,但这个跨语言是建立在编写代码的基础上。

如果想再深入了解的,可以去看看:

https://developers.google.com/protocol-buffers/docs/overview

好了,废话不多说,我们直接来看看,为什么我们需要对比protobuffer(下面简称GPB)和JSON

1、JSON因为有一定的格式,并且是以字符存在的,在数据量上还有可以压缩的空间。而GPB上大数据量时,空间比JSON小很多,等一下的例子我们可以看到。

2、JSON各个库之间的效率相差比较大,jackson库和GSON就大概有5-10的差距(这个只做过一次测试,如有误,请大家轻拍)。而GPB只需要一个,没有所谓的多个库的区别。当然这个点只是弄出来凑数的,可以忽略不计哈。

 

Talk is cheap,Just show me the code

在程序界,代码永远是王道,下面就直接来代码吧。

上代码前,大家要先下载protobuffer,在这里:

https://code.google.com/p/protobuf/downloads/list

注意,需要下载两个,一个是complier,另外一个是source code,相信这个难不倒大家了,这里略过。

1、首先,GPB是需要有一个类似类定义的文件,叫proto文件 。

我们以学生和老师的例子来进行一个例子:

我们有以下两个文件:student.proto

 

option java_package = "com.shun";
option java_outer_classname = "StudentProto";

message Student {
	required int32 id = 1;
	optional string name = 2;
	optional int32 age = 3;
}

 teacher.proto

 

import "student.proto";
option java_package = "com.shun";
option java_outer_classname = "TeacherProto";

message Teacher {
	required int32 id = 1;
	optional string name = 2;

	repeated Student student_list = 3;
}

这里我们遇到了一些比较奇怪的东西:

import,int32,repated,required,optional,option

一个个来吧:

1)import表示引入其他的proto文件

2)required,optional表示字段是否可选,这个决定了该字段有无值的情况下protobuffer会进行什么处理。如果标志了required,但当处理时,该字段没有进行传值,则会报错;如果标志了optional,不传值则不会有什么问题。

3)repeated相信应该都看得懂了,就是是否重复,跟JAVA里面的list类似

4)message就是相当于class

5)option表示选项,其中的java_package表示包名,即生成JAVA代码时使用的包名,java_outer_classname即为类名,注意这个类名不能跟下面的message中的类名相同。

至于还有其他的选项和相关类型的,请参观官方文档。

 

2、有了这几个文件,我们能怎么样呢?

记得上面下载的编译器了吧,解压出来,我们得到一个protoc.exe,这当然是windows下的,我没弄其他系统的,有兴趣的同学去折腾下罗。

加到path(加不加可以随便,只是方不方便而已),然后就可以通过上面的文件生成我们需要的类文件了。

protoc --java_out=存放源代码的路径 --proto_path=proto文件的路径 proto具体文件

--proto_path指定的是proto文件的文件夹路径,并不是单个文件,主要是为了import文件查找使用的,可以省略

 

如我需要把源代码放在D:\protobufferVsJson\src,而我的proto文件存放在D:\protoFiles

那么我的编译命令就是:

protoc --java_out=D:\protobufferVsJson\src 

D:\protoFiles\teacher.proto D:\protoFiles\student.proto

注意,这里最后的文件,我们需要指定需要编译的所有文件

 

编译后可以看到生成的文件。

代码就不贴出来了,太多了。大家可以私下看看,代码里面有一大堆Builder,相信一看就知道是建造者模式了。

这时可以把代码贴到你的项目中了,当然,错误一堆了。

 

记得我们前面下载的源代码吗?解压它吧,不要手软。然后找到src/main/java/复制其中的一堆到你的项目,当然,你也可以ant或者maven编译,但这两个东西我都不熟,就不献丑了,我还是习惯直接复制到项目中。


代码出错,哈哈,正常。不知道为何,GOOGLE非要留下这么个坑给我们。

翻回到protobuffer目录下的\java看到有个readme.txt了吧,找到一句:

看来看去,感觉这个代码会有点奇怪的,好像错错的感觉,反正我是没按那个执行,我的命令是:

 

protoc --java_out=还是上面的放代码的地方 proto文件的路径(这里是descriptor.proto文件的路径)

执行后,我们可以看到代码中的错误木有了。

 

3接下来当然就是测试了。

我们先进行GPB写入测试:

package com.shun.test;

import java.io.FileOutputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import com.shun.StudentProto.Student;
import com.shun.TeacherProto.Teacher;

public class ProtoWriteTest {

	public static void main(String[] args) throws IOException {
		
		Student.Builder stuBuilder = Student.newBuilder();
		stuBuilder.setAge(25);
		stuBuilder.setId(11);
		stuBuilder.setName("shun");
		
		//构造List
		List<Student> stuBuilderList = new ArrayList<Student>();
		stuBuilderList.add(stuBuilder.build());
		
		Teacher.Builder teaBuilder = Teacher.newBuilder();
		teaBuilder.setId(1);
		teaBuilder.setName("testTea");
		teaBuilder.addAllStudentList(stuBuilderList);
		
		//把gpb写入到文件
		FileOutputStream fos = new FileOutputStream("C:\\Users\\shun\\Desktop\\test\\test.protoout");
		teaBuilder.build().writeTo(fos);
		fos.close();
	}

}

我们去看看文件,如无意外,应该是生成了的。

生成了之后,我们肯定要读回它的。

package com.shun.test;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import com.shun.StudentProto.Student;
import com.shun.TeacherProto.Teacher;

public class ProtoReadTest {

	public static void main(String[] args) throws FileNotFoundException, IOException {
		
		Teacher teacher = Teacher.parseFrom(new FileInputStream("C:\\Users\\shun\\Desktop\\test\\test.protoout"));
		System.out.println("Teacher ID:" + teacher.getId() + ",Name:" + teacher.getName());
		for (Student stu:teacher.getStudentListList()) {
			System.out.println("Student ID:" + stu.getId() + ",Name:" + stu.getName() + ",Age:" + stu.getAge());
		}
	}

}

代码很简单,因为GPB生成的代码都帮我们完成了。

上面知道基本的用法了,我们重点来关注GPBJSON生成文件大小的区别,JSON的详细代码我这里就不贴了,之后会贴出示例,大家有兴趣可以下载。

这里我们用Gson来解析JSON,下面只给出对象转换成JSON后写出文件的代码:

两个类StudentTeacher的基本定义就不弄了,大家随意就行,代码如下:

 

package com.shun.test;

import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import com.google.gson.Gson;
import com.shun.Student;
import com.shun.Teacher;

public class GsonWriteTest {

	public static void main(String[] args) throws IOException {
		Student stu = new Student();
		stu.setAge(25);
		stu.setId(22);
		stu.setName("shun");
		
		List<Student> stuList = new ArrayList<Student>();
		stuList.add(stu);
		
		Teacher teacher = new Teacher();
		teacher.setId(22);
		teacher.setName("shun");
		teacher.setStuList(stuList);
		
		String result = new Gson().toJson(teacher);
		FileWriter fw = new FileWriter("C:\\Users\\shun\\Desktop\\test\\json");
		fw.write(result);
		fw.close();
	}

}

接下来正式进入我们的真正测试代码了,前面我们只是在列表中放入一个对象,接下来,我们依次测试100,1000,10000,100000,1000000,5000000这几个数量的GPBJSON生成的文件大小。

改进一下之前的GPB代码,让它生成不同数量的列表,再生成文件:

 

package com.shun.test;

import java.io.FileOutputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import com.shun.StudentProto.Student;
import com.shun.TeacherProto.Teacher;

public class ProtoWriteTest {

	public static final int SIZE = 100;
	
	public static void main(String[] args) throws IOException {
		
		//构造List
		List<Student> stuBuilderList = new ArrayList<Student>();
		for (int i = 0; i < SIZE; i ++) {
			Student.Builder stuBuilder = Student.newBuilder();
			stuBuilder.setAge(25);
			stuBuilder.setId(11);
			stuBuilder.setName("shun");
			
			stuBuilderList.add(stuBuilder.build());
		}
		
		Teacher.Builder teaBuilder = Teacher.newBuilder();
		teaBuilder.setId(1);
		teaBuilder.setName("testTea");
		teaBuilder.addAllStudentList(stuBuilderList);
		
		//把gpb写入到文件
		FileOutputStream fos = new FileOutputStream("C:\\Users\\shun\\Desktop\\test\\proto-" + SIZE);
		teaBuilder.build().writeTo(fos);
		fos.close();
	}

}

 这里的SIZE依次改成我们上面据说的测试数,可以得到如下:

 


 
然后我们再看看JSON的测试代码:

 

 

package com.shun.test;

import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import com.google.gson.Gson;
import com.shun.Student;
import com.shun.Teacher;

public class GsonWriteTest {

	public static final int SIZE = 100;
	
	public static void main(String[] args) throws IOException {
		
		List<Student> stuList = new ArrayList<Student>();
		for (int i = 0; i < SIZE; i ++) {
			Student stu = new Student();
			stu.setAge(25);
			stu.setId(22);
			stu.setName("shun");
			
			stuList.add(stu);
		}
		
		
		Teacher teacher = new Teacher();
		teacher.setId(22);
		teacher.setName("shun");
		teacher.setStuList(stuList);
		
		String result = new Gson().toJson(teacher);
		FileWriter fw = new FileWriter("C:\\Users\\shun\\Desktop\\test\\json" + SIZE);
		fw.write(result);
		fw.close();
	}

}

 同样的方法修改SIZE,并作相应的测试。

可以明显得看到json的文件大小跟GPB的文件大小在数据量慢慢大上去的时候就会有比较大的差别了,JSON明显要大上许多。


上面的表应该可以看得比较清楚了,在大数据的GPB是非常占优势的,但一般情况下客户端和服务端并不会直接进行这么大数据的交互,大数据主要发生在服务器端的传输上,如果你面对需求是每天需要把几百M的日志文件传到另外一台服务器,那么这里GPB可能就能帮你的大忙了。

 

 

说是深度对比,其实主要对比的是大小方面,时间方面可比性不会太大,也没相差太大。

文章中选择的Gson解析器,有兴趣的朋友可以选择Jackson或者fastjson,又或者其他的,但生成的文件大小是一样的,只是解析时间有区别。

 

这神一般的iteye博客编辑器,无语了,插入代码后还要带些标签,大家将就看吧。代码就打包在下面了。

 

 

  • 大小: 31.7 KB
  • 大小: 5.5 KB
  • 大小: 23.8 KB
  • 大小: 23.8 KB
  • 大小: 23.2 KB
  • 大小: 34.7 KB
5
1
分享到:
评论
12 楼 li709566365 2016-10-28  
楼主您好,本人经过测试protobuf不提供任何压缩功能,若日志使用protobuf传输的话,比传统log文件大小上不会有任何优势。
11 楼 hewei5894 2016-04-01  
用于数据传输,数据贮存都可以
10 楼 course 2015-07-13  
houxinyou 写道
cxshun 写道
houxinyou 写道
文件格式是什么样的?调试的时候能直接看出来导出的数据吗?感觉JSON最大的优点就是测试的时候可以自己写一个JSON文件,如果这个做不到的话,可能还是有问题.

调试的时候看数据?同样是JAVA对象,当然可以看啊。
对,JSON最大的优点是可以自己写一个,但这个也很方便啊,写一个proto文件,编译一下,一切搞定。想怎么用就怎么用。
你可以看一下文章最后的大小对比,然后试一下使用它,就知道它的优势在哪了。虽然会有点麻烦,但比起处理效率的提高,我觉得还是很值得的。

1.如果proto文件不能直接看到数据的话,有时不方便问题的定位,不知道是哪一端出的问题,自己写一段程序输出一个文件很方便吗?
2.如果是HTTP的方式传输的话,开启http压缩后优势还是那么明显吗?如果不是http,也可以自己动手把JSON压缩一下.


虽然有挖坟的嫌疑……不过既然看到了就稍微补充下:
1. proto文件虽然是二进制的,但想要看的话用python写个脚本3行就可以搞定。而在生产环境中,流量就意味着成本,要调试爽还是成本低看自己;
2. proto压缩优势主要在于对integer的压缩,甚至有符号无符号都采用了不同的编码方式,能够提供极高的压缩比。而字符串对象目前据我所知是没有编码的,不过可以对pb再次进行压缩;

pb的不利之处在于:
1. 对数组类型不能随机访问,必须从头开始解,因此发送大量数组型数据时推荐自己做一下wrapper;
2. 对嵌套数组类型会消耗大量内存,跟它的内存分配机制有关;(这第一点据说新版有fix,但后边没去了解)
3. 典型的cpu换空间,自己判断使用场景。
9 楼 cpop 2015-03-02  
很好的一篇博客,讨论也基本扫清了我的障碍!
8 楼 cxshun 2013-11-23  
houxinyou 写道
cxshun 写道
houxinyou 写道
文件格式是什么样的?调试的时候能直接看出来导出的数据吗?感觉JSON最大的优点就是测试的时候可以自己写一个JSON文件,如果这个做不到的话,可能还是有问题.

调试的时候看数据?同样是JAVA对象,当然可以看啊。
对,JSON最大的优点是可以自己写一个,但这个也很方便啊,写一个proto文件,编译一下,一切搞定。想怎么用就怎么用。
你可以看一下文章最后的大小对比,然后试一下使用它,就知道它的优势在哪了。虽然会有点麻烦,但比起处理效率的提高,我觉得还是很值得的。

1.如果proto文件不能直接看到数据的话,有时不方便问题的定位,不知道是哪一端出的问题,自己写一段程序输出一个文件很方便吗?
2.如果是HTTP的方式传输的话,开启http压缩后优势还是那么明显吗?如果不是http,也可以自己动手把JSON压缩一下.


1、输出到文件很方便,但输出后的文件你不能直接查看,它是类似于持久化的数据。需要看到数据的话当然是写出之前罗,这个是肯定可以看到的嘛,同样是JAVA对象。
2、这个我就暂时没有去处理,但http压缩我觉得没有超过一半那么牛吧。你可以看看对比数据,几乎是3倍的差距,这个已经不是单单压缩能解决的了。
但实际上用这个东西最大的问题就跟你说的一样,输出后不能直接查看,不好发现问题,只能去调度,或者中途打印输出。但对比大数据量传输的时候,这点不方便还是可以接受的。
7 楼 houxinyou 2013-11-19  
cxshun 写道
houxinyou 写道
文件格式是什么样的?调试的时候能直接看出来导出的数据吗?感觉JSON最大的优点就是测试的时候可以自己写一个JSON文件,如果这个做不到的话,可能还是有问题.

调试的时候看数据?同样是JAVA对象,当然可以看啊。
对,JSON最大的优点是可以自己写一个,但这个也很方便啊,写一个proto文件,编译一下,一切搞定。想怎么用就怎么用。
你可以看一下文章最后的大小对比,然后试一下使用它,就知道它的优势在哪了。虽然会有点麻烦,但比起处理效率的提高,我觉得还是很值得的。

1.如果proto文件不能直接看到数据的话,有时不方便问题的定位,不知道是哪一端出的问题,自己写一段程序输出一个文件很方便吗?
2.如果是HTTP的方式传输的话,开启http压缩后优势还是那么明显吗?如果不是http,也可以自己动手把JSON压缩一下.
6 楼 cxshun 2013-11-15  
houxinyou 写道
文件格式是什么样的?调试的时候能直接看出来导出的数据吗?感觉JSON最大的优点就是测试的时候可以自己写一个JSON文件,如果这个做不到的话,可能还是有问题.

调试的时候看数据?同样是JAVA对象,当然可以看啊。
对,JSON最大的优点是可以自己写一个,但这个也很方便啊,写一个proto文件,编译一下,一切搞定。想怎么用就怎么用。
你可以看一下文章最后的大小对比,然后试一下使用它,就知道它的优势在哪了。虽然会有点麻烦,但比起处理效率的提高,我觉得还是很值得的。
5 楼 houxinyou 2013-11-15  
文件格式是什么样的?调试的时候能直接看出来导出的数据吗?感觉JSON最大的优点就是测试的时候可以自己写一个JSON文件,如果这个做不到的话,可能还是有问题.
4 楼 cxshun 2013-11-14  
finallygo 写道
关键的点没有说到,为什么protobuf比json小,建议楼主分享一下,protobuf的实现

确实,这个没说到。这篇主要还只是对比一下而已。实现的暂时还没看。我会抽时间看看,到时分享一下。
3 楼 cxshun 2013-11-14  
houxinyou 写道

用于程序通信吗?

这个不一定,当你需要传输大量数据时,并且带宽有限,一点点小的压缩都对你有很大帮助的。这个东西对大数据的压缩很有用。但当只有很少的数据量时,这个效果不明显。
2 楼 finallygo 2013-11-14  
关键的点没有说到,为什么protobuf比json小,建议楼主分享一下,protobuf的实现
1 楼 houxinyou 2013-11-14  

用于程序通信吗?

相关推荐

    插件json和对比

    例如,如果你是在VS Code(Visual Studio Code)环境中,那么可能指的是"JSON Viewer"或"JSON Tools"这样的插件,它们可以将JSON数据以树形结构展示,便于理解和操作。 "json插件"很显然是指专门处理JSON数据的工具...

    实现protobuf与json的互转

    Protocol Buffers是Google推出的一种数据序列化协议,而JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,广泛用于Web服务和API之间传递数据。 描述中提到的“protobuf的Descriptor技术”,...

    两个json文件对比结果差异展示python源码

    两个json文件对比结果差异展示python源码,还可以忽略某些key的对比

    C++ json库性能对比

    本篇文章主要探讨的是四个流行的C++ JSON库:SimpleJSON, jsoncpp, libjson, 和 rapidjson,在VS2010环境下的性能对比。 首先,让我们逐一了解这些库: 1. **SimpleJSON**:这是一个开源、轻量级的库,提供简单的...

    json比对js插件

    总结起来,JSON比对JS插件是开发过程中不可或缺的辅助工具,它们通过自动格式化、深度比对和高亮显示功能,帮助开发者快速识别和理解JSON数据的差异,从而提高代码质量和维护性。对于处理JSON数据的项目,掌握这类...

    JSON对比工具介绍(含单元测试对比,接口API响应对比【忽略指定噪声字段key】)

    介绍两个JAVA语言开源的JSON对比工具。 1,对于单元测试对比JSON,可使用文档中第一个工具集。 2,对于API响应JSON数据,需要对比时使用文档中第二个工具集,可以指定忽略噪声字段,比较强大。 不废话:...

    实用小工具:Java实体类对比、Json对比、字符串动态拼接等功能

    标题中的“实用小工具:Java实体类对比、Json对比、字符串动态拼接等功能”涉及到的是在软件开发过程中常用的几个技术点,主要集中在Java后端和前端Vue.js的应用上。这里我们将详细探讨这些知识点: 1. **Java实体...

    notepad++文件比较和json格式化插件

    在这个主题中,我们将深入探讨两个重要的插件:文件比较和JSON格式化插件,这些插件能够显著提升Notepad++的功能和用户体验。 首先,让我们来谈谈文件比较插件。在开发过程中,经常需要对比不同版本的文件或者查找...

    Android解析json速度对比

    在Android开发中,JSON作为一种轻量级的数据交换格式,被广泛用于网络通信和数据存储。在处理大量JSON数据时,解析速度就显得尤为重要,因为它直接影响到应用的性能和用户体验。本篇文章将深入探讨在Android环境下,...

    CompareJSON JSON对比小程序

    一个创新特性是自定义JSON拆解对比,这意味着用户可以指定某些部分进行深度比较。这种灵活性对于关注特定部分的差异,或者需要忽略某些不重要的键值对比时尤为有用。用户可以根据需求选择哪些部分进行细致比较,...

    JSON深度详解及org.json库详细剖析

    理解JSON的基本语法和`org.json`库的使用,将有助于我们在实际开发中更好地处理JSON数据,提升程序的性能和可维护性。通过深入学习本教程,你将掌握JSON的精髓,以及如何利用`org.json`库高效地进行JSON操作。

    swift-JSONShootout几款主流SwiftJSON映射器使用及性能对比测试

    在进行性能对比测试时,通常会创建一个大型JSON数据集,并测量每种库解析和序列化该数据集所需的时间。这可以帮助我们了解在不同场景下哪种库的性能最佳。此外,还要关注内存占用和错误处理能力等因素。 在...

    前端json对比工具,可以对比json的不同之处

    为了帮助开发者更有效地管理和理解JSON数据,出现了专门的“前端JSON对比工具”。这类工具能够帮助我们分析和识别两个JSON对象之间的差异,从而优化代码、调试接口或者进行数据验证。 标题中提到的“前端JSON对比...

    json离线查看工具

    JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,被广泛应用于网络编程,尤其是在Web服务和客户端数据传输中。它的语法简洁明了,易于人类阅读和编写,同时也容易让机器解析和生成。JSON格式基于...

    分享一个好用的JSON编辑器JSONedit

    JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,因其简洁、易读、易于解析的特性,在Web服务和应用程序间广泛用于数据传输。而JSONedit是一款专为JSON设计的编辑器,它提供了可视化的界面,帮助...

    人工智能+深度学习+数据集预处理+xml转json

    在当前的IT领域,人工智能(AI)和深度学习(Deep Learning...总的来说,这个项目涵盖了人工智能、深度学习、目标检测、数据集处理以及XML到JSON转换等多个重要知识点,是理解和实践现代计算机视觉技术的一个实用案例。

    about-JSON.rar_JSON_xml json 对比

    JSON与XML的对比主要体现在以下几个方面: 1. **语法复杂度**:JSON的语法比XML简单,没有XML的开始和结束标签,以及命名空间等概念。 2. **解析速度**:由于JSON的结构相对简单,解析速度通常比XML快。 3. **...

    json、xml对比

    ### JSON与XML对比分析 #### 一、简介 在数据交换和存储方面,JSON(JavaScript Object Notation)和XML(eXtensible Markup Language)都是常用的数据格式。这两种格式各有优势,适用于不同的场景。了解它们之间...

    Json离线校验视图工具

    "Json离线校验视图工具"正为此目的而设计,它允许开发者在没有网络连接的情况下,对JSON数据进行校验和查看,确保其符合JSON语法规则。 1. **Json解析助手**: 这款工具通常包含一个内置的解析器,可以将JSON字符...

Global site tag (gtag.js) - Google Analytics