`

unicode两种编码方式与中文的转换

阅读更多

unicode的表示方式有两种,一种为web页面中使用的,一种为我们一般采用的编码方式
第一种:"成都 "Unicode编码方式  &+编号是网页里引用unicode字符的方法,编号为十进制的在unicode中的编号
 
第二种:\u6210\u90fd 表示的也是成都,采用的也是unicode编码格式,是java编程中使用的编码格式
它以\u开头,后接四位16进制的数。
一下是java中之间相互转化的代码

/*
 * string与unicode之间相互转换
 */
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class unicodeString {
	public static void main(String[] args) {
		String str = "中国";
		System.out.println(unicodeString.StringToWebUnicode(str));
		System.out.println(unicodeString.WebUnicodeToString("中国"));
		System.out.println(unicodeString.StringToUnicode(str));
		System.out.println(unicodeString.UnicodeToString("\u4e2d\u56fd\\uqqqq"));
	}
	/*
	 * 普通类型的unicode转string
	 */
	public static String UnicodeToString(String input) {
		Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");
		Matcher matcher = pattern.matcher(input);
		char ch;
		while (matcher.find()) {
			ch = (char) Integer.parseInt(matcher.group(2), 16);
			input = input.replace(matcher.group(1), ch + "");
		}
		return input;
	}
	/*
	 * string转普通类型的unicode
	 */
	public static String StringToUnicode(String input) {
		String str = "";
		for (char c : input.toCharArray()) {
			if ((int) c > 128)
				str += "\\u" + Integer.toHexString((int) c);
			else
				str += c;
		}
		return str;

	}
	/*
	 * string转web类型的unicode
	 */
	public static String StringToWebUnicode(String input) {
		String str = "";
		for (char c : input.toCharArray()) {
			str += "&#" + (int) c + ";";
		}
		return str;
	}
	/*
	 * web类型的unicode转string
	 */
	public static String WebUnicodeToString(String input) {
		String str = "";
		String[] y1 = input.split(";");
		for (String c : y1) {
			if (c.length() > 2) {
				str += (char) Integer.parseInt(c.substring(2));
			}
		}
		return str;
	}
}

 

分享到:
评论

相关推荐

    Unicode和GBK编码转换表

    “Unicode和GBK编码转换表”是开发者在处理这两种编码之间的转换时的重要工具。它列出每个字符在Unicode和GBK编码中的对应关系,使得程序可以按照这个表将一种编码的文本转换成另一种。在实际开发中,例如在网页显示...

    Unicode中文编码对照表

    2. UTF-8编码:中文在Unicode中最常见的编码方式,UTF-8是一种变长编码,可以表示Unicode中的所有字符,对于中文字符,它通常使用三到四个字节。 3. GBK与Big5:这两个是针对中文的早期编码标准,GBK是中国大陆广泛...

    unicode,gbk编码相互转换C程序

    本主题聚焦于两种常见的中文编码方式:Unicode和GBK,以及它们之间的转换。Unicode是一种国际标准,目标是涵盖全球所有语言的字符,而GBK是中国大陆广泛使用的编码,兼容GB2312,同时增加了许多其他汉字和符号。 ...

    编码转换小工具,包含多种编码的相互转换[html编码转换 unicode编码转换 url编码转换 编码转换],基于framework 3.5的winform程序

    在了解这款工具之前,我们先来详细探讨一下这些编码方式。 1. **HTML编码**:HTML编码主要用于在网页中显示特殊字符,如非ASCII字符。HTML编码使用`&`符号开始,后面跟着字符的数字或名称,例如`&`代表'&',`&...

    C语言字符编码转换UNICODE、GBK、UTF-8互相转换

    GBK编码使用两个字节来表示一个字符,与UNICODE相比,它不是全球通用的,主要用于中文环境。 UTF-8是一种变长的编码方式,它可以使用1到4个字节来表示一个字符。对于ASCII字符,UTF-8使用单个字节,而对于其他...

    gb18030与unicode转换表

    GB18030和Unicode是两种广泛使用的字符编码系统,它们各自有着不同的设计目标和应用场景。本文将深入探讨GB18030与Unicode的转换表,以及它们在实际应用中的意义。 首先,让我们了解GB18030编码。GB18030,全称...

    汉字unicode相互转换器

    汉字Unicode相互转换器是一款实用工具,它主要的功能是帮助用户将汉字与Unicode编码进行相互转换。在信息技术领域,Unicode是一个国际标准,它为世界上几乎所有的字符提供了一个唯一的数字标识,使得计算机可以处理...

    Ansi Unicode UTF8编码转换及代码示例

    在探讨ANSI、Unicode以及UTF-8之间的转换之前,我们首先需要了解这三种编码的基本概念及其应用场景。 - **ANSI编码**:ANSI(American National Standards Institute)编码是一种根据操作系统语言环境变化的字符...

    ASCLL和Unicode演示代码

    本篇将深入探讨这两种编码方式的原理、差异以及转换方法。 首先,ASCLL(American Standard Code for Information Interchange,美国信息交换标准代码)是一种基于拉丁字母的编码,它使用7位二进制表示128个不同的...

    游戏通用Unicode编码转换

    在这个场景下,“游戏通用Unicode编码转换”意味着游戏开发者需要处理各种字符编码方式,以确保游戏中文字的正确显示,无论用户是在哪个地区或使用何种设备。 Unicode是一种国际标准,它定义了一个统一的字符集,...

    c语言利用编码转换表实现gbk与unicode互转

    GBK和Unicode是两种常见的字符编码标准,它们各有特点,适应不同的应用场景。C语言虽然不是现代高级语言那样内置了丰富的字符串处理功能,但通过巧妙的设计,同样可以实现GBK与Unicode之间的转换。本篇文章将详细...

    汉字的Unicode与GBK编码对照表

    在“汉字编码对照表.xls”文件中,你将找到一个详细的表格,它列出了汉字与Unicode码点、GBK编码以及区位码的对应关系。这个表格对于开发者、程序员和对中文编码有需求的人来说非常有价值,可以方便地查找特定汉字的...

    汉字与unicode编码(十六进制)对照表

    在计算机处理汉字时,就需要用到特定的编码方式来表示这些字符。Unicode(统一码)是一种全球通用的字符编码标准,它为世界上几乎所有的文字提供了一个唯一的数字标识。在这个“汉字与unicode编码(十六进制)对照表”...

    Unicode解码编码_unicode解码_unincode转换_Unicode解码编码_源码

    2. **Unicode解码**:当接收到一个字节序列时,我们需要知道它是用哪种编码表示的,然后使用相应的解码算法将其转换为Unicode字符。例如,如果知道是UTF-8编码,我们就可以按照UTF-8的规则读取字节,将它们转换回...

    易语言Ansi与Unicode转换源码

    Ansi编码和Unicode编码是两种广泛使用的字符表示方式。Ansi编码,也常被称为本地化编码或代码页编码,通常是基于特定区域或国家的标准,如GBK(中国)或ISO-8859-1(西欧)。这种编码方式的优点是占用空间小,但缺点...

    汉字与unicode相互转换

    汉字与 Unicode 的转换在处理中文文本时尤其重要,例如在网页编码、数据库存储、文本传输等方面。不同的编码方式(如 GB2312, GBK, Big5 等)可能会导致乱码问题,而使用 Unicode(如 UTF-8 编码)可以避免这类问题...

    字符集Unicode与UTF-8之间的转换

    Unicode和UTF-8是两种常用的字符集和编码方式,本文将详细介绍它们之间的转换。 Unicode Unicode是一个字符集,提供了一个通用的字符编码方案,能够表示世界上所有语言中的所有字符。Unicode使用双字节表示每个...

    易语言Ansi与Unicode转换源码.7z

    在易语言中,涉及到字符编码的问题时,我们通常会遇到Ansi和Unicode这两种不同的字符编码方式。 Ansi编码,也称为本地代码页或MBCS(多字节字符集),是基于特定区域设置的编码系统。在Windows系统中,Ansi编码通常...

    gbk+unicode+汉字编码对照表

    通过这个表格,我们可以方便地查找特定汉字在两种编码下的数值,便于在不同编码之间进行转换。在实际应用中,这可能对解决乱码问题、编程实现编码转换函数或者进行跨平台的数据交换都有极大的帮助。 总之,GBK和...

    unicode 转码器 编码转换

    "Unicode转码器"就是一种工具,用于将数据从一种编码格式转换为Unicode编码,以确保跨平台和跨语言的文本一致性。Unicode是一种国际标准,旨在统一全球所有语言的文字表示,它使用唯一的数字(代码点)来代表每一个...

Global site tag (gtag.js) - Google Analytics