论坛首页 Java企业应用论坛

超短的19位UUID,性能几乎翻倍提升

浏览 78087 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2014-07-18   最后修改:2014-07-19
在使用UUID作为数据库主键时,当数据量达到一定数量的时候(千万级),性能比数值型ID差很多。为了提升性能,可以考虑把UUID的长度降低(数据库本身有字节存储UUID类型的可以无视)。

经研究,发现JDK自带的UUID类中toString方法其实是把128位字节转换为16进制数值,这里考虑使用62进制,既0-9a-zA-Z,为此,专门编写了一个UUID字符串生成法。

首先,需要一个将long型值转换为62进制的工具类,代码如下:

public class Numbers {

	final static char[] digits = { '0', '1', '2', '3', '4', '5', '6', '7', '8',
			'9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l',
			'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y',
			'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L',
			'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y',
			'Z' };

	final static Map<Character, Integer> digitMap = new HashMap<Character, Integer>();

	static {
		for (int i = 0; i < digits.length; i++) {
			digitMap.put(digits[i], (int) i);
		}
	}

	/**
	 * 支持的最大进制数
	 */
	public static final int MAX_RADIX = digits.length;

	/**
	 * 支持的最小进制数
	 */
	public static final int MIN_RADIX = 2;

	/**
	 * 将长整型数值转换为指定的进制数(最大支持62进制,字母数字已经用尽)
	 * 
	 * @param i
	 * @param radix
	 * @return
	 */
	public static String toString(long i, int radix) {
		if (radix < MIN_RADIX || radix > MAX_RADIX)
			radix = 10;
		if (radix == 10)
			return Long.toString(i);

		final int size = 65;
		int charPos = 64;

		char[] buf = new char[size];
		boolean negative = (i < 0);

		if (!negative) {
			i = -i;
		}

		while (i <= -radix) {
			buf[charPos--] = digits[(int) (-(i % radix))];
			i = i / radix;
		}
		buf[charPos] = digits[(int) (-i)];

		if (negative) {
			buf[--charPos] = '-';
		}

		return new String(buf, charPos, (size - charPos));
	}

	static NumberFormatException forInputString(String s) {
		return new NumberFormatException("For input string: \"" + s + "\"");
	}

	/**
	 * 将字符串转换为长整型数字
	 * 
	 * @param s
	 *            数字字符串
	 * @param radix
	 *            进制数
	 * @return
	 */
	public static long toNumber(String s, int radix) {
		if (s == null) {
			throw new NumberFormatException("null");
		}

		if (radix < MIN_RADIX) {
			throw new NumberFormatException("radix " + radix
					+ " less than Numbers.MIN_RADIX");
		}
		if (radix > MAX_RADIX) {
			throw new NumberFormatException("radix " + radix
					+ " greater than Numbers.MAX_RADIX");
		}

		long result = 0;
		boolean negative = false;
		int i = 0, len = s.length();
		long limit = -Long.MAX_VALUE;
		long multmin;
		Integer digit;

		if (len > 0) {
			char firstChar = s.charAt(0);
			if (firstChar < '0') {
				if (firstChar == '-') {
					negative = true;
					limit = Long.MIN_VALUE;
				} else if (firstChar != '+')
					throw forInputString(s);

				if (len == 1) {
					throw forInputString(s);
				}
				i++;
			}
			multmin = limit / radix;
			while (i < len) {
				digit = digitMap.get(s.charAt(i++));
				if (digit == null) {
					throw forInputString(s);
				}
				if (digit < 0) {
					throw forInputString(s);
				}
				if (result < multmin) {
					throw forInputString(s);
				}
				result *= radix;
				if (result < limit + digit) {
					throw forInputString(s);
				}
				result -= digit;
			}
		} else {
			throw forInputString(s);
		}
		return negative ? result : -result;
	}

}


其次,编写uuid生成工具方法,代码如下:

private static String digits(long val, int digits) {
	long hi = 1L << (digits * 4);
	return Numbers.toString(hi | (val & (hi - 1)), Numbers.MAX_RADIX)
			.substring(1);
}

/**
 * 以62进制(字母加数字)生成19位UUID,最短的UUID
 * 
 * @return
 */
public static String uuid() {
	UUID uuid = UUID.randomUUID();
	StringBuilder sb = new StringBuilder();
	sb.append(digits(uuid.getMostSignificantBits() >> 32, 8));
	sb.append(digits(uuid.getMostSignificantBits() >> 16, 4));
	sb.append(digits(uuid.getMostSignificantBits(), 4));
	sb.append(digits(uuid.getLeastSignificantBits() >> 48, 4));
	sb.append(digits(uuid.getLeastSignificantBits(), 12));
	return sb.toString();
}


如此一来,把原来32位或者36位的原始UUID缩短为19位,且不丢失精度。生成的UUID大概类似:

wcea4ucWUxPx0g8ahel
PCDoWJMPwloLBrsoGrt
S2hYVN4q32kBkIlxfAj
wFxuUfs8iBt83vK7i4Q
9kH63UK4BXx1S62Lzyk
dLo0JUu0OqLemJGxixo
n7Fw32kRj1bMSKFfTLb
xV9FV0d4g1Xj7feODwd
ajNbLuj3jGTobCKt7V4
t7laXKUe2uSDLQmWKKM

最后,如果在digits追加一些字符,甚至可以达到七八十进制的水平,可再缩短一两位UUID长度,但鉴于UUID可读性不建议这么做。
   发表时间:2014-07-19  
19位还是太长,而且重复几率不需要那么低,为此新写了一个生成随机ID的方法,也是采用62进制表示法,位数自定义,方法如下:


final static char[] digits = { '0', '1', '2', '3', '4', '5', '6', '7', '8',
		'9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l',
		'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y',
		'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L',
		'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y',
		'Z' };
/**
 * 随机ID生成器,由数字、小写字母和大写字母组成
 * 
 * @param size
 * @return
 */
public static String id(int size) {
	Random random = new Random();
	char[] cs = new char[size];
	for (int i = 0; i < cs.length; i++) {
		cs[i] = digits[random.nextInt(digits.length)];
	}
	return new String(cs);
}


假如生成的字符串长度是12,那么十亿(10^9)笔ID中重复的可能性是多少呢?根据生日悖论,概率计算公式如下(可直接拷贝到谷歌或者百度计算):

1-e^(-(10^9)^2/62^12)=0.00030990773

也就是说,ID长度为12时,当系统中已有十亿笔数据,那么要再插入大约3000笔,才会发生一次重复。

如果数据量特别大,还是不放心冲突概率,可以简单的增加位数,比如当位数达到16位、系统已有百亿笔数据是,新插入的ID冲突的概率是多大呢?

1-e^(-(10^10)^2/62^16)=2.09764972e-9

也就是说,ID长度为16时,即使系统中已有百亿笔数据,那么还要再插入大约5亿笔,才会发生一次重复。

一般情况下,恐怕都没那么大的数据量,而且作为ID即使冲突也会导致事务回滚,一般不碍事,使用此方法再选择16位长度即可。





0 请登录后投票
   发表时间:2014-07-22  
为啥不直接用base64?
另外直接用bigint存储,性能更好。
1 请登录后投票
   发表时间:2014-07-23  
一群臭屌丝,有个球用
0 请登录后投票
   发表时间:2014-07-23  
james_lover 写道
为啥不直接用base64?
另外直接用bigint存储,性能更好。

能详细解释一下你说的方法和简单样例代码吗?
希望能获得更短,不容易重复的ID方法,非常感谢!
0 请登录后投票
   发表时间:2014-07-23  
aunox 写道
james_lover 写道
为啥不直接用base64?
另外直接用bigint存储,性能更好。

能详细解释一下你说的方法和简单样例代码吗?
希望能获得更短,不容易重复的ID方法,非常感谢!


数据库支持bigint的话,java直接用bigInteger来保存数据。

否则的话,想缩短ID长度,用Base64有很多第三方包,优点不是ID能更短,而是不用重复造轮子。
0 请登录后投票
   发表时间:2014-07-23  
Base64编码性能略差,而且长度是22位,因为无法区分其中的固定范围值字段。至于bigint,数据库性能是好,但是毕竟是10进制,同样的精度同样的冲突概率,在数据库之外表现时会显得很长很长,比如作为URL里传递ID时。
0 请登录后投票
   发表时间:2014-07-24  
如果使用的是mysql,还在使用UUID作为主键,那么我就无话可说了

使用int或者bigint要好的多
0 请登录后投票
   发表时间:2014-07-25  
james_lover 写道
aunox 写道
james_lover 写道
为啥不直接用base64?
另外直接用bigint存储,性能更好。

能详细解释一下你说的方法和简单样例代码吗?
希望能获得更短,不容易重复的ID方法,非常感谢!


数据库支持bigint的话,java直接用bigInteger来保存数据。

否则的话,想缩短ID长度,用Base64有很多第三方包,优点不是ID能更短,而是不用重复造轮子。


这不叫重复造轮子,而且精益求精,
0 请登录后投票
   发表时间:2014-07-25  
你这个id生成的还是太长,而且不可排序,可用参考一下 MongoDB 的 ObjectId 生成策略,仅有12个字节,转换字符串只有12个,而且是可排序的。基本支持大部分需求。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics