谈到字节排序的问题,必然牵涉到两大CPU派系。那就是Motorola的PowerPC系列CPU和Intel的x86系列CPU。PowerPC系列采用big endian方式存储数据,而x86系列则采用little endian方式存储数据。ARM同时支持 big和little,实际应用中通常使用little endian。那么究竟什么是big endian,什么又是little endian呢?
其实big endian是指低地址存放最高有效字节(MSB),而little endian则是低地址存放最低有效字节(LSB)。用文字说明可能比较抽象,下面用图像加以说明。比如数字0x12345678在两种不同字节序CPU中的存储顺序如下所示:
Big Endian
一个Word中的高位的Byte放在内存中这个Word区域的低地址处
低地址 高地址
----------------------------------------->
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| 12 | 34 | 56 | 78 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
Little Endian
一个Word中的低位的Byte放在内存中这个Word区域的低地址处
低地址 高地址
----------------------------------------->
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| 78 | 56 | 34 | 12 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
从上面两图可以看出,采用big endian方式存储数据是符合我们人类的思维习惯的。必须注意的是:一个Word的长度是16位,一个Byte的长度是8位。如果一个数超过一个Word的长度,必须先按Word分成若干部分,然后每一部分(即每个Word内部)按Big-Endian或者Little-Endian的不同操作来处理字节。
一个例子:
如果我们将0x1234abcd写入到以0x0000开始的内存中,则结果为
big-endian little-endian
0x0000 0x12 0xcd
0x0001 0x34 0xab
0x0002 0xab 0x34
0x0003 0xcd 0x12
---------------------------------------------------------------------------------------------------------------------------------------
前言:java程序要处理很多的网络数据,网络数据发送和接收以及数据流的处理是java程序要特别关注的方面,随着java的发展,这些方法也越来越得到重视和加强。本文从几个方面解释了java正确处理网络数据流的要素,这些也是java程序员必须了解的基本的知识。
1:庞大的java流处理
首先,之所以说java流的庞大,是因为java中的流处理比其他语言的流处理在内容上多的多。
java流在处理上分为字符流和字节流。字符流处理的单元为2个字节的Unicode字符,分别操作字符、字符数组或字符串,而字节流处理单元为1个字节,操作字节和字节数组。
Java内用Unicode编码存储字符,字符流处理类负责将外部的其他编码的字符流和java内Unicode字符流之间的转换。而类 InputStreamReader和OutputStreamWriter处理字符流和字节流的转换。字符流(一次可以处理一个缓冲区)一次操作比字节流(一次一个字节)效率高。
对应不同的流,需要不同的流构建器或流过滤实现。java目前依然在逐渐增加其流处理方法,虽然java类库的创作人员可以列举出很多理由来说明这要做的优点,但我还是觉得java开始变得向其他语言一样复杂起来。
2:网络数据流的收发
java对网络数据的发送和接收处理,也借用了一般流处理的方法。我们知道,在几乎其他所有语言中,网络数据的收发在利用类似send(或write)和 recv(或read)的方法时并没有明显的流处理。但是java和这些语言的收发方法有较大区别,要借助流才可以完成:
.......
sock = new Socket(addr, port);
OutputStream os = sock.getOutputStream();
InputStream is = sock.getInputStream();
os.write(byte[] b);
is.read(byte[] b);
|
这些方法总给人一种不太舒服的感觉。不过从Jdk1.4开始弥补了这一点。JDK1.4中新增加了新的I/O流处理,在缓冲区管理、可伸缩网络和文件 IO、字符集支持、正规表达式匹配方面做了新的处理。其中缓冲区管理和通道(Channel)概念则是对网络数据流的收发处理支持的强化。缓冲区管理中 ByteBuffer类更好的支持了网络数据流处理。在网络连接中,通道代表了sockets的连接。基于这些新的IO处理,以上代码可以改写为:
......
ByteBuffer bytebuf = ByteBuffer.allocate(2048); // 创建一个指定大小的缓冲区
InetSocketAddress isa = new InetSocketAddress(hostname,port);
sc = SocketChannel.open(); // 建立一个socket通道
sc.connect( isa); // 建立一个socket连接
…
sc.write(bytebuf); // 发送数据
…
sc.read(bytebuf); // 接收数据
这样的程序似乎要流畅的多。
|
3:java对网络数据流的处理
java程序对网络数据流的处理要关注四个基本方面:数据流的编码,字节顺序,数据格式对应和取数。这是四个不同的问题,但是都影响到网络数据的正确接收。
3.1 网络数据流的解码和编码
网络数据流的编码和解码主要针对流中出现的字符串。网络数据流中的字符串均为原始的字节流形式。
要正确接收网络数据流中的字符串,首先要知道该字符串的编码方案。然后才可以调用解码的方法获得java能够认识的Unicode编码字符串。可以用如下代码处理网络数据流中字符串的编码和解码:
// 获得编码对象,即网络对等方的认识的字符串编码。
Charset charset = Charset.forName("--?"); // --?为对等方的编码名,java必须支持。
// 生成编码器和解码器对象。
CharsetDecoder decoder = charset.newDecoder();
CharsetEncoder encoder = charset.newEncoder();
.......
// 对从网络数据流中获得的字节流解码取得java字符串
CharBuffer charbuf = decoder.decode(bytebuff);
.......
// 将java字符串编码成指定编码的字节流,以便网络发送
Bytebuff bytebuff = encoder.encode(CharBuffer.wrap("Test String");
.......
|
3.2 网络数据流的字节顺序
目前的字节顺序有两类:BIG_ENGIAN和LITTLE_ENDIAN。各个平台所支持的字节序不同,例如AIX、Tru64Unix、Windows 等操作系统平台采用LITTLE_ENDIAN字节序,Solaris等操作系统平台采用BIG_ENGIAN。Java自身采用的是 BIG_ENGIAN字节序,当java和运行在其他平台上的其他语言编写的通信程序通信时,则必须考虑到数据的字节序。
Jkd1.4新增加的包NIO中的类ByteOrder则带来了一定的方便。针对从网络数据流的字节序,我们只要增加一行就可以轻松的处理字节序了:
bytebuf.order(ByteOrder.LITTLE_ENDIAN); //按照LITTLE_ENDIAN字节序收发数据
sc.read(bytebuf); // 接收数据
上面的方法虽然简化了我们的编程,但没有真正处理好分布式应用的网络数据字节序问题。例如,java同时和在Tru64Unix、Solaris平台上的应用通信时,上述方法就不能解决问题。因为同一数据包,可能无法判断其字节序是那一种。此时要求网络数据包内携带附加的字节序信息显然是不现实的。这种情况下,java语言需要提供对XDR(外部数据表达)的支持,目前XDR已经为事实上的网络数据流的标准格式,分布式应用的网络数据流基本都遵循了这种格式,如果java语言提供了对XDR的支持,就可以解决通用性的问题。对于分布式应用中的网络数据流的处理就无需再根据其平台判断其字节序,只要按照 XDR格式进行处理就可以了。
3.3 网络数据流中数据格式的对应
C/C++语言编写的网络程序中一般采用数据结构的缓冲区发送数据,在java端接收数据时,会出现一些因数据组织引起的问题:
如结构 typedef struct {
int id;
char name[32];
short val;
float fval;
} SendData
|
在32位操作系统中,它的大小并不是42,而是44!数据的组织如下图所示:
当通过网络发送到客户端时,客户端也接收到44个字节,如果按照顺序依次取相应的值,则会发现最后取得的浮点值不正确。这是因为把短整型数据后没有意义的两位作为了浮点数中的其中两位。如果想正确接收该数据,则必须跳过短整型数据后没有意义的两位,再取浮点值。
而如果以上的结构变为:
typedef struct {
int id;
char name[32];
float fval;
short val;
}
|
则java端按照顺序依次接收数据就不会发生问题。
所以,在编写程序时,对数据的正确组织也是非常重要的。
3.4从网络数据流中取得需要的数据
在 C/C++的Socket编程时,采用数据结构收发数据很方便,特别是接收数据时,可以由数据结构的数据类型自动获得网络数据流相应的数据。但是在 java中,目前我们必须对流进行分析,逐一的取得自己所需要的数据,并且由于网络数据流是原始的数据流,还要根据程序所需要的数据类型对网络数据流进行解码处理。发送网络数据时同样需要对数据进行封装。这个过程也增加了java程序的烦琐性。例如上述结构,要用如下代码获取相应数据:
- int id = bytebuf.getInt(); // 获得整数型值
- int limit = bytebuf.limit(); // 获得字节缓冲区的限值
- bytebuf.limit(36); // 设置字节缓冲区的限值,为字符串后面的第一个字节位置
- CharBuffer charbuf = decoder.decode(bytebuf); // 解码获得字符串
- Bytebuf.limit(limit); // 恢复字节缓冲区原来的限值
- float fval = bytebuf.getfloat(); // 获得浮点型值
- short val = bytebuf.getshort(); // 获得短整型数值
4:结束语
从上面的介绍可以看出,java程序中对网络数据流的处理涉及的问题较多。在编写网络程序时,必须注意这些问题,以使得程序正确的处理通信的内容。
分享到:
相关推荐
Java 网络字节序转换是编程过程中一个重要的概念,尤其在跨平台通信和处理二进制数据时。字节序是指多字节数据(如整数或浮点数)在内存或文件中存储的顺序。主要有两种字节序:Big-Endian(大端字节序)和 Little-...
Java中的默认字节序是网络字节序,也就是大端字节序。 2. **解析过程**:将16进制字符串转换为浮点数,通常涉及以下步骤: - 将16进制字符串转换为字节数组,每个字节对应一个16进制字符。 - 根据字节序调整字节...
二进制杂谈 1、十进制、二进制、十六进制 2、计算机储存单位 3、进制转换 4、有符号编码 5、反码的设计原理 6、二进制的位运算 7、位操作符 8、内存与内存地址 9、字节序 10、Java解码 11、Java编码
**字节序与Java字节序:** 字节序决定了多字节数据在内存中的存储顺序。Java使用**大端字节序**,即高位字节存储在低地址,低位字节存储在高地址。 **JDK与JRE的区别:** 1. **JDK**:包含JRE,提供Java开发工具,...
Java的`DataInputStream`和`DataOutputStream`类提供了处理基本数据类型(如int、float)的方法,并且在写入时会自动处理字节序(大端或小端)。而`ObjectInputStream`和`ObjectOutputStream`则用于序列化和反序列化...
需要注意的是,Java的标准字节序是大端字节序,但是这并不意味着所有的硬件平台都遵循这个标准。因此,在进行字节序转换时,尤其是在跨平台的环境中,我们需要特别注意字节序的问题,以确保数据的一致性和正确性。 ...
对于字节序转换,Java提供了`java.nio.ByteOrder`类,可以方便地在大端和小端之间切换。 PHP是另一种常用的Web开发语言,其文件操作主要通过`fopen`、`fwrite`和`fread`等函数完成。在网络字节流方面,PHP提供了`...
Java字节码指令集是Java虚拟机(JVM)执行程序的基础,它是Java源代码经过编译后的二进制表示形式。每个字节码指令都由一个操作码(Opcode)和可能的操作数组成,用于控制JVM执行各种操作。本文将深入探讨Java字节码...
字节序转换辅助类,short大小端转换,ushort大小端转换,int大小端转换,uint大小端转换,long大小端转换,ulong大小端转换; short类型 小端转大端,short类型 大端转小端,int类型 小端转大端,int类型 大端转小端...
因此,当Java(使用小端字节序)和C++(可能使用大端或小端,取决于硬件平台)进行通信时,需要进行字节序转换。 在C++中,结构体是一种自定义数据类型,可以包含不同类型的数据成员。为了通过Socket发送,需要将...
例如,在大端序中,最高位的字节在数组的最前面,而在小端序中,最高位的字节在数组的最后面。 在实际应用中,这些转换可能会涉及到更多的边界检查和错误处理,例如检查输入数组的长度是否符合要求,以及处理可能的...
"Java整型数与网络字节序byte[]数组转换关系详解" 本文主要介绍了Java整型数与网络字节序byte[]数组之间的转换关系,包括整型数到byte[]数组的转换和byte[]数组到整型数的转换。这些转换关系在Java和C/C++之间的...
本篇文章主要探讨了Java如何与C、C++、Delphi等Windows编程语言进行数据类型的转换,尤其是针对字节序(endianness)的问题。 字节序是指多字节数据类型(如int、float等)在内存中的存储顺序。主要有两种字节序:...
5. 大端字节序(bigendian)和小端字节序(littleendian):在计算机中,不同硬件平台可能会有不同的字节序表示法。JVM规范了字节码使用大端字节序,但当字节码运行在小端字节序的CPU上时,可能需要进行适当的转换。 6....
- **Java的字节序**:Java采用大端字节序,意味着在多字节数据中,高位字节存储在低地址处。 4. **JDK与JRE的区别**: - **JDK**:Java开发工具包,包含了Java编译器、调试器、文档生成工具等,用于开发和运行...
Java默认使用大端字节序,而BMP文件使用小端字节序存储数据。因此,读取BMP文件时,必须将读取到的数据进行字节序转换,才能正确解析文件内容。 例如,`constructInt`函数通过将四个字节重新排序来构建一个整数,以...
本主题聚焦于一个特定的工具或源码,即“16进制单精度(32位)浮点型转换器”,它能够将32位的浮点数在16进制表示与十进制表示之间进行转换,并考虑到了不同的字节序——大端和小端。 首先,我们要理解16进制和...
在传输前,需要将结构体数据转换为网络字节序,Java的`java.nio.ByteOrder`和C++的`htonl`, `ntohl`等函数可用来处理字节序问题。 5. **跨语言通信的库和框架**: - **JNI(Java Native Interface)**:Java提供...
这将生成一个名为`HelloWorldApp.class`的字节码文件。然后,通过`java`命令来运行程序: ```sh java HelloWorldApp ``` 如果一切正常,控制台会输出“Hello World!”。 #### 5. Applet概述与实现 Applet是一种...
4. 平台兼容性:由于Java和C语言的字节序不同,可能需要在数据传输前进行字节序转换。例如,Java是大端序,而大多数C编译器默认为小端序。可以使用`java.nio.ByteBuffer`的`order()`方法在Java端设置字节序,C语言端...