[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 -

registerID

浏览: 5358 次
性别:
来自: 成都

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题

ASP.net ASP F#D语言 .net

作者： jillzhang

    联系方式：jillzhang@126.com

    C语言和C#语言中，对于浮点类型的数据采用单精度类型（float）和双精度类型(double)来存储，float数据占用 32bit,double数据占用64bit,我们在声明一个变量float f= 2.25f的时候，是如何分配内存的呢？如果胡乱分配，那世界岂不是乱套了么，其实不论是float还是double在存储方式上都是遵从IEEE的规范的，float遵从的是IEEE R32.24 ,而double 遵从的是R64.53。

    无论是单精度还是双精度在存储中都分为三个部分：

   1. 符号位(Sign) : 0代表正，1代表为负
   2. 指数位（Exponent）:用于存储科学计数法中的指数数据，并且采用移位存储
   3. 尾数部分（Mantissa）：尾数部分

其中float的存储方式如下图所示：

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

而双精度的存储方式为:

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

    R32.24和R64.53的存储方式都是用科学计数法来存储数据的，比如8.25用十进制的科学计数法表示就为:8.25*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松,而120.5可以表示为:1.205*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松, 这些小学的知识就不用多说了吧。而我们傻蛋计算机根本不认识十进制的数据，他只认识0，1，所以在计算机存储中，首先要将上面的数更改为二进制的科学计数法表示，8.25用二进制表示可表示为1000.01,我靠，不会连这都不会转换吧?那我估计要没辙了。120.5用二进制表示为：1110110.1用二进制的科学计数法表示1000.01可以表示为1.0001*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松,1110110.1可以表示为1.1101101*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松,任何一个数都的科学计数法表示都为1.xxx*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松, 尾数部分就可以表示为xxxx,第一位都是1嘛，干嘛还要表示呀？可以将小数点前面的1省略，所以23bit的尾数部分，可以表示的精度却变成了 24bit，道理就是在这里，那24bit能精确到小数点后几位呢，我们知道9的二进制表示为1001，所以4bit能精确十进制中的1位小数点，24bit就能使float能精确到小数点后6位，而对于指数部分，因为指数可正可负，8位的指数位能表示的指数范围就应该为:-127-128了，所以指数部分的存储采用移位存储，存储的数据为元数据 127，下面就看看8.25和120.5在内存中真正的存储方式。

     首先看下8.25，用二进制的科学计数法表示为:1.0001*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

按照上面的存储方式，符号位为:0，表示为正，指数位为:3 127=130 ,位数部分为,故8.25的存储方式如下图所示:

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

而单精度浮点数120.5的存储方式如下图所示:

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

那么如果给出内存中一段数据，并且告诉你是单精度存储的话，你如何知道该数据的十进制数值呢？其实就是对上面的反推过程，比如给出如下内存数据：0100001011101101000000000000，首先我们现将该数据分段，0 10000 0101 110 1101 0000 0000 0000 0000，在内存中的存储就为下图所示：

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

根据我们的计算方式，可以计算出，这样一组数据表示为:1.1101101*[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松=120.5

而双精度浮点数的存储和单精度的存储大同小异，不同的是指数部分和尾数部分的位数。所以这里不再详细的介绍双精度的存储方式了，只将120.5的最后存储方式图给出，大家可以仔细想想为何是这样子的

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

下面我就这个基础知识点来解决一个我们的一个疑惑，请看下面一段程序，注意观察输出结果

            float f = 2.2f;

            double d = (double)f;

            Console.WriteLine(d.ToString("0.0000000000000"));

            f = 2.25f;

            d = (double)f;

            Console.WriteLine(d.ToString("0.0000000000000"));

可能输出的结果让大家疑惑不解，单精度的2.2转换为双精度后，精确到小数点后13位后变为了2.2000000476837，而单精度的2.25转换为双精度后，变为了2.2500000000000，为何2.2在转换后的数值更改了而 2.25却没有更改呢？很奇怪吧？其实通过上面关于两种存储结果的介绍，我们已经大概能找到答案。首先我们看看2.25的单精度存储方式，很简单 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的双精度表示为:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,这样2.25在进行强制转换的时候，数值是不会变的，而我们再看看2.2呢，2.2用科学计数法表示应该为：将十进制的小数转换为二进制的小数的方法为将小数*2，取整数部分，所以0.282=0.4，所以二进制小数第一位为0.4的整数部分0，0.4×2=0.8，第二位为 0,0.8*2=1.6,第三位为1，0.6×2 = 1.2，第四位为1，0.2*2=0.4，第五位为0，这样永远也不可能乘到=1.0，得到的二进制是一个无限循环的排列 00110011001100110011... ,对于单精度数据来说，尾数只能表示24bit的精度，所以2.2的float存储为:

[转]浮点数在计算机中存储方式与浮点（float，double）不精确问题 - Austin - 明月照青松

但是这样存储方式，换算成十进制的值，却不会是2.2的，应为十进制在转换为二进制的时候可能会不准确，如2.2，而double类型的数据也存在同样的问题，所以在浮点数表示中会产生些许的误差，在单精度转换为双精度的时候，也会存在误差的问题，对于能够用二进制表示的十进制数据，如2.25，这个误差就会不存在，所以会出现上面比较奇怪的输出结果。

本文属作者原创，只发布在博客园，希望大家在转载的时候，注明出处和作者，谢谢。

注：本文在写作过程中，参照了如下资料：

http://www.msdn.net/library/chs/default.asp?url=/library/CHS/vccore/html/_core_why_floating_point_numbers_may_lose_precision.asp

http://blog.csdn.net/ganxingming/archive/2006/12/19/1449526.aspx

Please Wait 请稍候

Why Floating-Point Numbers May Lose Precision为什么浮点数可能会丢失精度

Floating-point decimal values generally do not have an exact binary representation.浮点十进制值通常没有一个确切的二进制代表性。 This is a side effect of how the CPU represents floating point data.这是一个负面影响，如何代表的CPU浮点数据。 For this reason, you may experience some loss of precision, and some floating-point operations may produce unexpected results.出于这个原因，您可能会遇到一些损失精度，一些浮点运算可能会产生意想不到的结果。

This behavior is the result of one of the following:这种现象是由于下列内容之一：

    *

      The binary representation of the decimal number may not be exact.二进制代表十进制数可能不准确。
    *

      There is a type mismatch between the numbers used (for example, mixing float and double).有一个类型不匹配的数字之间使用（例如，混合浮动双）。

To resolve the behavior, most programmers either ensure that the value is greater or less than what is needed, or they get and use a Binary Coded Decimal (BCD) library that will maintain the precision.要解决此问题，大多数程序员要么确保该值大于或小于所需要的，或者他们获得和使用二进制编码的十进制（声BCD ）库，将保持精度。

Binary representation of floating-point values affects the precision and accuracy of floating-point calculations.二元代表性浮点值影响的精密度和准确度的浮点计算。 Microsoft Visual C uses IEEE floating-point format .微软Visual C 中使用的IEEE浮点格式。

http://lingchuangsong.blog.163.com/blog/static/12693232201032692651894/

分享到：