浮点数的存储

xpp02

浏览: 1074682 次

最近访客更多访客>>

xutao2811

andylao62

u012363178

prestlhh

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

■ 现实生活中的小数
数学中的小数，又称为实数。一般用十进制表示

例如： 3.14159265

■ 科学计算法
数学中的科学计算法许多种表示法

3.14159265 = 0.314159265 × 101

■ 计算机中浮点数的表示

在计算机中的使用科学计数法是一种“规格化计数法”。

● 规格化计数法
用科学计数法表示实数时，如果最左边的第一个数字不是0，则被称为“规格化计数法”
0.1 × 10-2 不是规格化计数法
1.0 × 10-3 则是规格化计数法

● IEEE 754 标准
IEEE 754 标准成立于1985年，80年代起所有的计算机系统均支持IEEE 754
IEEE 754 对浮点数在计算机表示方法有三个主要的规定：

对于单精度（single precision）：单精度浮点数位长：32位

（1） IEEE 754 标准规定：第1位为符号位，1 代表负，0代表正
（2）接下来用8位来表示指数部分。
（3）接下来的23位用来表示有效数位

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
- --------------- ---------------------------------------------
S 指数（8位）有效数位（23 位）

★ IEEE 754 考虑到利用现有的整数比较指充，对浮点数能进行快速的比较和排序，由于指数部分大小能快速反应出浮点数的大小，所以，在符号位接下来的8位用来表示指数，有效数位的大小反应出浮点数的精度。安排在最后的23位

★ 对于规格化二进制浮点示法而言，有效数位的第1位必定是1而不是0，因此，IEEE 754 规定：实际有效数位中的第1位被省去，因而，有效数位中默计含有1位。

★ 移码：除了将指数安排在有效数位前面，还不足以快速比较两个浮点数的大小，例如：

1.0 × 2 -1 在计算机中表示为：0 11111111 00000000000000000000000
这个数相当于整数的 0x7F800000

1.0 × 2 1 在计算机中表示为：0 00000001 00000000000000000000000
这个数相当于整数的 0x00800000

如果用整数比较指令，比较两个数，1.0 × 2 -1 竟然比 1.0 × 2 1 还大！

为了解决这个问题，IEEE 754 设计了一个方案：将指数加上一个常数 127
这个常数 127 被称为“移码”（biased notation）

我们再来看一看：
1.0 × 2 -1 将指数： -1 + 127 = 126 后,得出以下的二进制数：
0 01111110 00000000000000000000 也就是: 0x3F000000

1.0 × 2 1 将指数：1 + 127 = 128 后，得出以下的二进制数：
0 10000000 00000000000000000000 也就是：0x40000000

这样的话，就可以得出正确结果了。

对于双精度（double precision）浮点数来说：位长64 位
（1）IEEE 754 标准规定：第1位为符号位，1 代表负，0代表正。
（2）接下来用11位来表示指数部分。
（3）接下来的52位用来表示有效数位。

★ 双精度浮点数用52位来表示有效数位，11位表示指数位，这样提高浮点数的精度，也还提高了浮点数的取值范围。

★ 双精度的移码为 1023

例子：
1、将 -0.625 转化为计算机中的二进制数浮点数
解：
-0.625 = -5/8 = -5/23 = -101 × 2-3 = -1.01 × 2-1

符号位：1
指数位：-1 + 127 = 126
有效数位：1.01（在机器中要相应去掉默认位）

所以，在机器表示的二进制序列为：1 01111110 0100000000000000000000
相当于整数：0xBF200000

2、将如下二进制序列用十进制浮点数表示。
11000000101000000000000000000000

解：
符号位：1 是负数
指数位；10000001 = 129，这个数要减去移码值，即：129 – 127 = 2
有效数位：01000000000000000000000 这个数要加上默认1，即得：1.01

整个序列结果为：- 1.01 × 22 = -101 = -5.0

下面的例子是按照二进制格式化输出整型、字符型以及单精度和双精度浮点型的例子：

[cpp] view plain copy print ?