`

双精度、单精度的有效位数

 
阅读更多

浮点数7位有效数字。(应该是单精度数 
双精度数16位有效数字。 

浮点数取值范围: 
负数取值范围为 -3.4028235E+38 到 -1.401298E-45,正数取值范围为 1.401298E-45 到 3.4028235E+38。 

双精度数取值范围: 
负值取值范围-1.79769313486231570E+308 到 -4.94065645841246544E-324,正值取值范围为 4.94065645841246544E-324 到 1.79769313486231570E+308。 

C/C++中浮点数的表示遵循IEEE 754标准。 
一个浮点数由三部分组成:符号位S、指数部分E(阶码)以及尾数部分M(如下)。 
Floating 
S--------E-------M 
1位-----8位-----23位 

Double 
S--------E-------M 
1位-----11位----52位 


十进制数的换算计算公式为(n^m表示n的m次幂,B表示前面的数字是二进制): 

S * 2^(E-127) * (1.M)B 


浮点数的精度取决于尾数部分。尾数部分的位数越多,能够表示的有效数字越多。 

单精度数的尾数用23位存储,加上默认的小数点前的1位1,2^(23+1) = 16777216。因为 10^7 < 16777216 < 10^8,所以说单精度浮点数的有效位数是7位。 

双精度的尾数用52位存储,2^(52+1) = 9007199254740992,10^16 < 9007199254740992 < 10^17,所以双精度的有效位数是16位。
单精度和双精度数值类型最早出现在C语言中(比较通用的语言里面),在C语言中单精度类型称为浮点类型(Float),顾名思义是通过浮动小数点来实现数据的存储。这两个数据类型最早是为了科学计算而产生的,他能够给科学计算提供足够高的精度来存储对于精度要求比较高的数值。但是与此同时,他也完全符合科学计算中对于数值的观念: 

当我们比较两个棍子的长度的时候,一种方法是并排放着比较一下,一种方法是分别量出长度。但是事实上世界上并不存在两根完全一样长的棍子,我们测量的长度精度受到人类目测能力和测量工具精度的限制。从这个意义上来说,判断两根棍子是否一样长丝毫没有意义,因为结果一定是False,但是我们可以比较他们两个哪个更长或者更短。这个例子很好地概括了单精度/双精度数值类型的设计初衷和存在意义。 

基于上述认识,单精度/双精度数值类型从一开始设计的时候,就不是一个准确的数值类型,他只保证在他这个数值类型的精度之内是准确的,精度之外则不保证,比方说,一个数值5.1,很可能存储在单精度/双精度数值中的实际值是5.100000000001或者5.09999999999999。导致这个现象的原因我们可以通过两种方式来解释: 

简单的解释方法 

你可以尝试在任何一个控件的属性面板中,设定他的宽度为:3.2CM,当你输入完毕后,你会发现值自动变成了3.199cm,无论你怎么改,你都无法输入3.200CM,因为实际上在电脑中存储的并不是CM为单位的数值,而是“缇”为单位的数值,而“缇”和CM之间的比值,是个很难被除尽的数,因此你输入完毕后,电脑自动转换成了最接近的“缇”值,然后再转换成厘米显示到属性面板上,这一乘一除,两次四舍五入,误差就出来了。单精度/双精度也是类似的原理,其实在二进制存储的时候,单精度/双精度都采用了类似相近分数的方法,而这样的存储是不可能做到准确的。 

深入的解释方法 

让我们来看看我们存储到数字介质中的单精度/双精度值到底是怎么样的,我们使用如下代码对单精度类型进行一个解剖: 

Public Declare Sub CopyMemory Lib "kernel32" Alias "RtlMoveMemory" (Destination As Any, Source As Any, ByVal Length As Long) 


Public Sub floatTest() 
Dim dblVar As Single 

dblVar = 5.731 / 8 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

dblVar = dblVar * 2 
dblOutput dblVar 

End Sub 

Public Sub dblOutput(ByVal dblVar As Single) 
Dim bytVar(3) As Byte 
Dim i As Integer, j As Integer 
Dim strVar As String 

CopyMemory ByVal VarPtr(bytVar(0)), ByVal VarPtr(dblVar), 4 
strVar = dblVar & ": " 
For i = 3 To 0 Step -1 
For j = 7 To 0 Step -1 
strVar = strVar & (bytVar(i) And 2 ^ j) / 2 ^ j 
Next j 
strVar = strVar & " " 
Next i 
Debug.Print strVar 

End Sub 
运行后我们得到输出结果(输出格式为高位左,低位右): 

.716375: 00111111 00110111 01100100 01011010 
1.43275: 00111111 10110111 01100100 01011010 
2.8655: 01000000 00110111 01100100 01011010 
5.731: 01000000 10110111 01100100 01011010 
11.462: 01000001 00110111 01100100 01011010 
22.924: 01000001 10110111 01100100 01011010 
这里,我们把单精度类型转化成了二进制数据输出,这里我们看到,虽然这六个数字完全不同,但是他们的二进制存储惊人地相似,我们看到红色标记部分,每次都是加1,事实上,单精度数据类型使用从高位开始第1位作为正负标记位(绿色),第2位到第9位,是一个跨字节的有符号字节类型数据,这个数值决定了小数点移动的方向和位数(红色),第10位到32位保存一个整数(蓝色)在存储过程中,电脑首先把输入的值不断移位(乘除2)直到这个数的整数部分占用了全部24位的整数位,然后把移动的位数写入浮点部分(红色),而移位后的结果写入整数部分(蓝色和绿色),小数部分则舍弃。求值的时候则是反向过程,先根据正负位和整数位求值,然后根据红色部分的整数来进行移位(乘除2的次方),最终才是我们得到的单精度数值。双精度数值也是同样原理,只是位数更多而已。 

通过解剖单精度数值的二进制存储格式,我们可以清楚看到,实际上单精度/双精度的存储,都要通过乘法和除法,其中必有舍入,如果恰好你的数值在除法中被舍入了,那么你赋的初值就很可能与你最终存储的值不完全相同,其中的微小差异,并不与单精度/双精度的设计目标相违背。 

当我们在数据库中或者VBA代码中使用一个单精度/双精度数值的时候,也许你从界面上看不到区别,但是在实际的存储中,这个差别却真真切切地就在那里,当你对其进行相等比较的时候,系统只是简单地作二进制的比较,界面上无法体现的微小差异,在二进制比较面前却无处遁形,于是,你的等于比较返回了一个意料之外的False。

分享到:
评论

相关推荐

    浮点数(单精度浮点数,双精度浮点数)

    在 C++ 中,浮点数有六种:float(单精度)、unsigned float(单精度无符号)、double(双精度)、unsigned double(双精度无符号)、long double(高双精度)和 unsigned long double(高双精度无符号)。...

    单精度&双精度浮点数与十六进制数相互转换

    对于双精度浮点数,过程类似,但指数和尾数位的位数更多,需要进行相应的扩展和处理。 在实际编程中,大多数编程语言如C++、Java、Python等都提供了内置函数来进行浮点数和十六进制之间的转换。例如,在Python中,...

    C语言菜鸟基础教程之单精度浮点数与双精度浮点数

    C语言中的浮点数类型 C语言中有两种基本的浮点数类型...单精度浮点数和双精度浮点数都是C语言中的基本浮点数类型,它们在存储方式、精度和数值范围方面有所不同。了解浮点数的特点和应用场景对于程序员来说非常重要。

    单双精度转十六进制.zip

    同样,双精度浮点数的转换步骤类似,但涉及的位数更多,指数和尾数分别是11位和52位。转换后的十六进制表示通常会有8个字符。 "单双精度转十六进制.exe"这个程序很可能是一个实用工具,它可以自动完成上述过程,将...

    单精度浮点数转换工具.rar

    3. **精度与误差**:由于单精度浮点数的位数限制,对于非常大或非常小的数值,或者包含很多小数位的数值,可能会存在精度损失。这个工具可能帮助用户理解并分析这种精度问题。 4. **其他格式转换**:除了标准的IEEE...

    浮点数精度问题解答——浮点数

    例如,双精度扩展至少需要64位有效数字和79位总位数。在实际应用中,如x86架构的FPU采用80位扩展精度,而Intel安腾处理器则使用82位。C/C++的long double类型通常对应于扩展双精度,但并非所有编译器都支持这一类型...

    S7300处理64位双精度数,解决PLC常见只能读取32位问题

    64位双精度浮点数,也称为“双精度”,是一种数据类型,能够存储非常大或非常小的数值,并提供比32位单精度更高的精度。它由64个二进制位组成,包括1个符号位、11位指数和52位尾数。这种数据类型的精度可以达到约15...

    计算机浮点数规格化表示.pdf

    浮点数的有效位数决定了浮点数的精度,例如,单精度 float 数的有效位数约为 6-7 位,双精度 double 数的有效位数约为 15-16 位。 浮点数的表示方式可以影响计算机程序的性能和精度,了解浮点数的规格化表示可以...

    第一个软件,浮点数HEX转换工具(单精度和双精度)

    标题中的“第一个软件,浮点数HEX转换工具(单精度和双精度)”是指一个能够将浮点数在十六进制(HEX)格式之间进行转换的程序,它支持单精度和双精度两种不同的浮点数表示。这个工具在编程中尤其有用,因为理解和处理...

    c语言float类型小数点后位数

    C语言中浮点型一般分为float单精度型、double双精度型、long double长精度型,单精度浮点型小数点后面有效数字为6~7位和双精度浮点型小数点后面有效数字为15~16位。单精度为32位,双精度为64位,8位为一个字节。 在...

    IEEE_754_16进制转十进制浮点数 工具

    该标准定义了浮点数如何以二进制形式存储,包括单精度(32位)和双精度(64位)格式。然而,在编程和文档中,人们通常使用更直观的16进制或10进制表示法。16进制表示法对于观察二进制的浮点数结构特别方便,因为它将...

    基于魂芯二号A的双精度浮点矢量IP设计V1.0用户手册-非密.doc

    - 尾数X包含一个隐含位1,默认位于最高位之前,有效位数为53位。 - **特殊值**: 支持NaN(非数)、无穷大、零等特殊值的表示,满足IEEE标准中的规定。 #### 七、软件开发环境 - **开发平台**: 基于ECS3.0仿真环境...

    浮点数在计算机中存储方式.pdf

    例如,将单精度浮点数2.2转换为双精度浮点数时,由于单精度浮点数无法精确表示2.2,转换后可能会出现轻微的数值变化,而2.25能够被单精度浮点数精确表示,转换为双精度浮点数时数值不变。 总之,浮点数在计算机中的...

    实验报告11

    在IEEE标准下,单精度浮点数有24位二进制有效位,双精度浮点数则有53位。当两个浮点数相加时,它们的小数点需要对齐,小数点后的位数若超过浮点数能表示的范围,则会被截断或舍入。这导致在级数求和中,当新增项的...

    精度控制mypi.zip

    - 单精度浮点数大约有7位有效数字,而双精度浮点数可以提供15位有效数字。 2. **精度控制命令**: - `format`命令是MATLAB中用来设置输出格式的,包括精度控制。例如,`format short`会显示结果到4位小数,而`...

    IEEE_745浮点数标准

    在单精度和双精度中,E的位数分别是8位和11位。 - **M (Mantissa)**:表示尾数,即有效数字部分。对于单精度和双精度,M的位数分别是23位和52位,但实际数值上还包括一个隐含的最高有效位,通常是1,除非在特殊情况...

    C语言浮点数探析.pdf

    C语言支持多种浮点数类型,主要包括float(单精度)、double(双精度)和long double(长双精度)。本知识点将从这些方面进行详细阐述。 首先,浮点数的存储格式使用两部分表示:尾数(M)和阶码(E)。尾数是二...

    S7-200SMART中如何把1个INT整型数据转换成REAL浮点型数据?.docx

    在这个例子中,123会被转换为双精度整数形式,其值为123 * 2^32,因为双精度整数是以二进制补码形式存储的64位数值。 2. **双精度整数到浮点数的转换**: 有了双精度整数后,我们接着使用`DI-R`(Double-Integer ...

    IEEE 745浮点数标准.pdf

    IEEE 754标准定义了三种基本的浮点数格式:单精度、双精度和扩展精度。其中,单精度和双精度最为常用: - **单精度**:总共有32位,其中S占1位,E占8位,M占23位。 - **双精度**:总共有64位,其中S占1位,E占11位...

    浮点数在计算机中的存储方式

    双精度浮点数(`double`)采用64位存储,其分布与单精度类似但位数更多: - **符号位**(1位):最高位。 - **指数位**(11位):次高位,采用偏移量1023的补码存储方式。 - **尾数部分**(52位):剩余位。 例如...

Global site tag (gtag.js) - Google Analytics