`
leifengshan
  • 浏览: 6127 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

关于浮点数的精度问题

阅读更多
  浮点类型的数据采用单精度类型(float)和双精度类型(double)来存储,单精度浮点数用4字节(32bit)表示浮点数, 而双精度浮点数用8字节(64bit)表示。

在存储中都分为三个部分:
符号位(Sign) : 0代表正,1代表为负
指数位(Exponent):用于存储科学计数法中的指数数据,并且采用移位存储
尾数部分(Mantissa):尾数部分

用 M(尾数) * B(底数)的E(指数)次方加上符号位来表示数值。

float:
1bit(符号位) 8bits(指数位) 23bits(尾数位)
double:
1bit(符号位) 11bits(指数位) 52bits(尾数位)

  于是,float的指数范围为-127~+128,而double的指数范围为-1023~+1024,并且指数位是按补码的形式来划分的。
  其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。
  float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38;double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。

  float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。
  float:2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字;
  double:2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。

编译运行下面这个程序:
public class Test{
    public static void main(String args[]){
        System.out.println(0.05+0.01);
        System.out.println(1.0-0.42);
        System.out.println(4.015*100);
        System.out.println(123.3/100);
    }
};

会看到结果为:
0.060000000000000005
0.5800000000000001
401.49999999999994
1.2329999999999999

在《Effective Java》这本书中提到,float和double只能用来做科学计算或者是工程计算,在商业计算中我们要用java.math.BigDecimal。

下面提供一个工具类Arith来实现浮点数的精确计算:
import java.math.BigDecimal;

/**
* 由于Java的简单类型不能够精确的对浮点数进行运算,这个工具类提供精
* 确的浮点数运算,包括加减乘除和四舍五入。
*/
public class Arith{

//默认除法运算精度
private static final int DEF_DIV_SCALE = 10;

//这个类不能实例化
private Arith(){}

/**
* 提供精确的加法运算。
* @param v1 被加数
* @param v2 加数
* @return 两个参数的和
*/
public static double add(double v1,double v2){
    BigDecimal b1 = new BigDecimal(Double.toString(v1));
    BigDecimal b2 = new BigDecimal(Double.toString(v2));
    return b1.add(b2).doubleValue();
}

/**
* 提供精确的减法运算。
* @param v1 被减数
* @param v2 减数
* @return 两个参数的差
*/
public static double sub(double v1,double v2){
    BigDecimal b1 = new BigDecimal(Double.toString(v1));
    BigDecimal b2 = new BigDecimal(Double.toString(v2));
    return b1.subtract(b2).doubleValue();
}

/**
* 提供精确的乘法运算。
* @param v1 被乘数
* @param v2 乘数
* @return 两个参数的积
*/
public static double mul(double v1,double v2){
    BigDecimal b1 = new BigDecimal(Double.toString(v1));
    BigDecimal b2 = new BigDecimal(Double.toString(v2));
    return b1.multiply(b2).doubleValue();
}

/**
* 提供(相对)精确的除法运算,当发生除不尽的情况时,精确到
* 小数点以后10位,以后的数字四舍五入。
* @param v1 被除数
* @param v2 除数
* @return 两个参数的商
*/
public static double div(double v1,double v2){
    return div(v1,v2,DEF_DIV_SCALE);
}

/**
* 提供(相对)精确的除法运算。当发生除不尽的情况时,由scale参数指
* 定精度,以后的数字四舍五入。
* @param v1 被除数
* @param v2 除数
* @param scale 表示表示需要精确到小数点以后几位。
* @return 两个参数的商
*/
public static double div(double v1,double v2,int scale){
    if(scale<0){
        throw new IllegalArgumentException(
        "The scale must be a positive integer or zero");
    }
    BigDecimal b1 = new BigDecimal(Double.toString(v1));
    BigDecimal b2 = new BigDecimal(Double.toString(v2));
    return b1.divide(b2,scale,BigDecimal.ROUND_HALF_UP).doubleValue();
}

/**
* 提供精确的小数位四舍五入处理。
* @param v 需要四舍五入的数字
* @param scale 小数点后保留几位
* @return 四舍五入后的结果
*/
public static double round(double v,int scale){
    if(scale<0){
        throw new IllegalArgumentException(
        "The scale must be a positive integer or zero");
    }
    BigDecimal b = new BigDecimal(Double.toString(v));
    BigDecimal one = new BigDecimal("1");
    return b.divide(one,scale,BigDecimal.ROUND_HALF_UP).doubleValue();
}
};


分享到:
评论

相关推荐

    浮点数精度问题解答——浮点数

    浮点数精度问题在计算机科学中是一个至关重要的概念,尤其对于进行数值计算的开发者来说,理解和掌握浮点数的表示和精度误差至关重要。本文将详细阐述IEEE 754标准,这一标准对浮点数的表示和计算进行了规范,旨在...

    C语言中浮点数精度问题分析.pdf

    在C语言编程中,浮点数精度问题是一个常见的问题,它涉及到计算机科学基础中的数值表示方法。由于计算机采用二进制系统存储数据,这使得计算机在处理十进制小数时会出现精度误差。理解这些误差产生的原因是极为重要...

    浮点数精度问题

    通过阅读和理解这些方法,我们可以学习到更多关于如何在实际编程中应对浮点数精度问题的技巧。 总之,理解和处理浮点数精度问题对于任何涉及数值计算的程序员来说都是至关重要的。通过选择合适的数据类型、使用高...

    浮点数(单精度浮点数,双精度浮点数)

    浮点数(单精度浮点数,双精度浮点数) 浮点数是一种数字表示方法,用于近似表示任意实数。在计算机中,浮点数由一个整数或定点数(即尾数)乘以某个基数(通常是 2)的整数次幂得到。这种表示方法类似于基数为 10 ...

    C语言中的浮点数精度问题如何处理?

    在C语言中,浮点数的精度问题是一个常见的挑战,因为它涉及到如何在有限的位数内表示无限的实数。浮点数的存储基于IEEE 754标准,这导致了一些数字无法被精确表示,从而引发了...以下是处理浮点数精度问题的几种方法:

    c语言浮点数高精度加法计算

    c语言浮点数高精度加法计算

    用于更方便的解决PHP中超大数字和浮点数精度问题

    为了避免浮点数精度问题,`bignumber`库通常采用字符串或其他特定的数据结构来存储大数字,这样就不会受到二进制表示的限制。通过这种方法,开发者可以在PHP中进行任意精度的数学运算,这对于金融计算、加密算法、...

    对S7-200PLC双精度浮点数转单精度浮点数例程的一点补充

    本篇文章主要探讨了如何在S7-200 PLC中处理双精度浮点数转换为单精度浮点数的问题,这对于管理智能电表、远传水表等远程抄表系统的数据一致性至关重要。双精度浮点数提供了更高的精度,但在处理能力有限的S7-200 PLC...

    S7-200SMART_双精度浮点数转换为单精度浮点数库文件及使用说明.rar

    本文将详细介绍如何使用S7-200SMART进行双精度浮点数到单精度浮点数的转换,并提供相应的库文件及使用说明。 1. **浮点数类型**: 浮点数在计算机中分为单精度浮点数(32位,IEEE 754标准)和双精度浮点数(64位,...

    浮点数精度.vi

    浮点数精度

    双精度浮点数转换

    在计算机科学中,浮点数是一种用于...无论是单精度还是双精度浮点数,了解它们如何在不同表示形式之间转换,以及如何进行实际转换,都能增强我们对计算机内部运作的理解,从而更好地利用这些数据类型来解决实际问题。

    S7-200双精度浮点数转单精度浮点数例程

    本代码将双精度浮点数转换为单精度浮点数,适合浮点数为正值的转换。 使用后将占用VD2810~VD2970字节,欢迎交流。 本代码的完成经历了一段时间的刻苦研究,无偿提供给真正需要的人,希望同行少走弯路。 代码允许复制...

    解决javascript中的浮点数计算不精确问题

    3. **使用库**:有一些库,如提供的`DoubleCount.js`,可以帮助处理浮点数精度问题。`DoubleCount.js`可能提供了更精确的浮点数计算方法,或者提供了方便的比较和格式化工具。 ```javascript // 引入DoubleCount....

    浮点数转换器,可将浮点数、单精度 双精度的数值转换为16进制发送

    浮点数转换器,可将浮点数、单精度 双精度的数值转换为16进制发送

    单精度双精度浮点数转换

    单精度双精度浮点数转换,浮点数与16进制转换工具

    单精度&双精度浮点数与十六进制数相互转换

    本文将深入探讨单精度和双精度浮点数与十六进制数之间的转换。 首先,我们来了解浮点数的基本概念。浮点数是一种可以表示小数的数值类型,分为单精度(Single-precision)和双精度(Double-precision)。单精度...

    PHP浮点数精度问题汇总

    但鉴于本文件内容是关于PHP,以下将针对PHP中的浮点数精度问题进行详细说明。 首先,我们需要明确的是,在计算机中,浮点数的表示遵循IEEE 754标准,而PHP使用的是双精度64位浮点数表示法。按照这一标准,一个双...

Global site tag (gtag.js) - Google Analytics