unicode的表示方式有两种,一种为web页面中使用的,一种为我们一般采用的编码方式
第一种:"成都 "Unicode编码方式 &+编号是网页里引用unicode字符的方法,编号为十进制的在unicode中的编号
第二种:\u6210\u90fd 表示的也是成都,采用的也是unicode编码格式,是java编程中使用的编码格式
它以\u开头,后接四位16进制的数。
一下是java中之间相互转化的代码
/*
* string与unicode之间相互转换
*/
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class unicodeString {
public static void main(String[] args) {
String str = "中国";
System.out.println(unicodeString.StringToWebUnicode(str));
System.out.println(unicodeString.WebUnicodeToString("中国"));
System.out.println(unicodeString.StringToUnicode(str));
System.out.println(unicodeString.UnicodeToString("\u4e2d\u56fd\\uqqqq"));
}
/*
* 普通类型的unicode转string
*/
public static String UnicodeToString(String input) {
Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");
Matcher matcher = pattern.matcher(input);
char ch;
while (matcher.find()) {
ch = (char) Integer.parseInt(matcher.group(2), 16);
input = input.replace(matcher.group(1), ch + "");
}
return input;
}
/*
* string转普通类型的unicode
*/
public static String StringToUnicode(String input) {
String str = "";
for (char c : input.toCharArray()) {
if ((int) c > 128)
str += "\\u" + Integer.toHexString((int) c);
else
str += c;
}
return str;
}
/*
* string转web类型的unicode
*/
public static String StringToWebUnicode(String input) {
String str = "";
for (char c : input.toCharArray()) {
str += "&#" + (int) c + ";";
}
return str;
}
/*
* web类型的unicode转string
*/
public static String WebUnicodeToString(String input) {
String str = "";
String[] y1 = input.split(";");
for (String c : y1) {
if (c.length() > 2) {
str += (char) Integer.parseInt(c.substring(2));
}
}
return str;
}
}
分享到:
相关推荐
“Unicode和GBK编码转换表”是开发者在处理这两种编码之间的转换时的重要工具。它列出每个字符在Unicode和GBK编码中的对应关系,使得程序可以按照这个表将一种编码的文本转换成另一种。在实际开发中,例如在网页显示...
2. UTF-8编码:中文在Unicode中最常见的编码方式,UTF-8是一种变长编码,可以表示Unicode中的所有字符,对于中文字符,它通常使用三到四个字节。 3. GBK与Big5:这两个是针对中文的早期编码标准,GBK是中国大陆广泛...
本主题聚焦于两种常见的中文编码方式:Unicode和GBK,以及它们之间的转换。Unicode是一种国际标准,目标是涵盖全球所有语言的字符,而GBK是中国大陆广泛使用的编码,兼容GB2312,同时增加了许多其他汉字和符号。 ...
在了解这款工具之前,我们先来详细探讨一下这些编码方式。 1. **HTML编码**:HTML编码主要用于在网页中显示特殊字符,如非ASCII字符。HTML编码使用`&`符号开始,后面跟着字符的数字或名称,例如`&`代表'&',`&...
GBK编码使用两个字节来表示一个字符,与UNICODE相比,它不是全球通用的,主要用于中文环境。 UTF-8是一种变长的编码方式,它可以使用1到4个字节来表示一个字符。对于ASCII字符,UTF-8使用单个字节,而对于其他...
GB18030和Unicode是两种广泛使用的字符编码系统,它们各自有着不同的设计目标和应用场景。本文将深入探讨GB18030与Unicode的转换表,以及它们在实际应用中的意义。 首先,让我们了解GB18030编码。GB18030,全称...
汉字Unicode相互转换器是一款实用工具,它主要的功能是帮助用户将汉字与Unicode编码进行相互转换。在信息技术领域,Unicode是一个国际标准,它为世界上几乎所有的字符提供了一个唯一的数字标识,使得计算机可以处理...
在探讨ANSI、Unicode以及UTF-8之间的转换之前,我们首先需要了解这三种编码的基本概念及其应用场景。 - **ANSI编码**:ANSI(American National Standards Institute)编码是一种根据操作系统语言环境变化的字符...
本篇将深入探讨这两种编码方式的原理、差异以及转换方法。 首先,ASCLL(American Standard Code for Information Interchange,美国信息交换标准代码)是一种基于拉丁字母的编码,它使用7位二进制表示128个不同的...
在这个场景下,“游戏通用Unicode编码转换”意味着游戏开发者需要处理各种字符编码方式,以确保游戏中文字的正确显示,无论用户是在哪个地区或使用何种设备。 Unicode是一种国际标准,它定义了一个统一的字符集,...
GBK和Unicode是两种常见的字符编码标准,它们各有特点,适应不同的应用场景。C语言虽然不是现代高级语言那样内置了丰富的字符串处理功能,但通过巧妙的设计,同样可以实现GBK与Unicode之间的转换。本篇文章将详细...
在“汉字编码对照表.xls”文件中,你将找到一个详细的表格,它列出了汉字与Unicode码点、GBK编码以及区位码的对应关系。这个表格对于开发者、程序员和对中文编码有需求的人来说非常有价值,可以方便地查找特定汉字的...
在计算机处理汉字时,就需要用到特定的编码方式来表示这些字符。Unicode(统一码)是一种全球通用的字符编码标准,它为世界上几乎所有的文字提供了一个唯一的数字标识。在这个“汉字与unicode编码(十六进制)对照表”...
2. **Unicode解码**:当接收到一个字节序列时,我们需要知道它是用哪种编码表示的,然后使用相应的解码算法将其转换为Unicode字符。例如,如果知道是UTF-8编码,我们就可以按照UTF-8的规则读取字节,将它们转换回...
Ansi编码和Unicode编码是两种广泛使用的字符表示方式。Ansi编码,也常被称为本地化编码或代码页编码,通常是基于特定区域或国家的标准,如GBK(中国)或ISO-8859-1(西欧)。这种编码方式的优点是占用空间小,但缺点...
汉字与 Unicode 的转换在处理中文文本时尤其重要,例如在网页编码、数据库存储、文本传输等方面。不同的编码方式(如 GB2312, GBK, Big5 等)可能会导致乱码问题,而使用 Unicode(如 UTF-8 编码)可以避免这类问题...
Unicode和UTF-8是两种常用的字符集和编码方式,本文将详细介绍它们之间的转换。 Unicode Unicode是一个字符集,提供了一个通用的字符编码方案,能够表示世界上所有语言中的所有字符。Unicode使用双字节表示每个...
在易语言中,涉及到字符编码的问题时,我们通常会遇到Ansi和Unicode这两种不同的字符编码方式。 Ansi编码,也称为本地代码页或MBCS(多字节字符集),是基于特定区域设置的编码系统。在Windows系统中,Ansi编码通常...
通过这个表格,我们可以方便地查找特定汉字在两种编码下的数值,便于在不同编码之间进行转换。在实际应用中,这可能对解决乱码问题、编程实现编码转换函数或者进行跨平台的数据交换都有极大的帮助。 总之,GBK和...
"Unicode转码器"就是一种工具,用于将数据从一种编码格式转换为Unicode编码,以确保跨平台和跨语言的文本一致性。Unicode是一种国际标准,旨在统一全球所有语言的文字表示,它使用唯一的数字(代码点)来代表每一个...