Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 。
Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码。
Unicode编码表请见
http://www.cnblogs.com/whiteyun/archive/2010/07/06/1772218.html
用javascript获取Unicode的方式非常简单,即:
var txt = new String("Hello world");
document.write(txt.charCodeAt(index));
最好加上一个document.write(txt.charAt(index));验证一下是否取到的是正确的字符,如果取到的字符不争取,在head标签中加上<meta charset="utf-8">
分享到:
相关推荐
本篇文章将深入探讨如何使用JavaScript将汉字转化为UNICODE编码,并提供相关工具的使用方法。 一、Unicode编码基础知识 Unicode是一种国际标准,用于表示世界上几乎所有的字符集,包括汉字。它使用一个数字来代表每...
JavaScript的`String`对象提供了与字符编码相关的函数,如`charCodeAt()`用于获取指定位置字符的Unicode码位,`fromCharCode()`则可以根据Unicode码位创建字符串。 在处理特殊字符时,可能会遇到ASCII和Unicode的...
总之,JavaScript获取汉字拼音的方法依赖于特定的库或插件,通过调用其提供的API来完成转换。在开发过程中,了解这些工具和方法对于实现涉及汉字与拼音转换的功能至关重要。希望本文所讲述的内容对你的JavaScript...
在JavaScript编程语言中,汉字首字母的提取是一个常见的需求,特别是在中文数据处理、搜索关键词简化或者拼音排序等场景。这个话题涉及到JavaScript字符串处理、Unicode编码以及多音字识别。下面我们将详细探讨这些...
通过JavaScript处理Unicode,可以获取到汉字的各个部分,例如使用正则表达式或者字符串的`match()`方法来匹配特定的部首或部件。 汉字的散光功能可能是指将汉字分散显示,比如将一个完整的汉字拆分成多个部分,并在...
在本篇文档中,我们会详细介绍JavaScript语言是如何实现汉字与Unicode编码之间的相互转换的。 首先,我们需要了解JavaScript内置的字符串处理函数`escape()`和`unescape()`。这两个函数在早期JavaScript版本中用于...
在JavaScript编程语言中,实现中文转拼音的功能是一个常见的需求,特别是在前端开发中,例如创建一个网页工具,允许用户输入中文并获取对应的拼音。这个过程涉及到字符编码、Unicode和中文字符到拼音的映射。以下是...
本文将深入探讨如何使用JavaScript获取中文字符的拼音首字母,并利用这些首字母实现快速查找页面内的中文内容。 首先,我们需要了解JavaScript如何处理中文字符。在JavaScript中,中文字符是Unicode编码,可以通过`...
在JavaScript编程中,获取汉字的首字母是一项常见的需求,特别是在数据排序、拼音检索或构建关键词索引时。这篇博文“js 获取汉字首字母”提供了一种实现方式,它可能涉及到了字符串处理和字符编码的知识。下面我们...
### JavaScript支持中文(Unicode)编程 #### 背景与发现 在JavaScript开发过程中,一个让人意想不到的现象是:JavaScript居然支持使用中文(Unicode)字符作为标识符(包括变量名、函数名等)。这一特性虽然在实际...
在JavaScript中,Unicode字符可以通过`\u`后跟四位十六进制数字来表示,例如,汉字“中”的Unicode编码是`\u4E2D`。如果你需要输出更复杂的Unicode字符,如表情符号,可以使用八位的码点表示,即`\u{XXXXX}`,其中`X...
总结,通过JavaScript实现汉字转拼音涉及对Unicode的理解、查找算法的设计、多音字处理以及性能优化等多个方面。这个小工具虽然简陋,但它提供了一个基础框架,开发者可以根据实际需求进行扩展和完善。学习和理解这...
最近因为业务需要,在页面上实现带汉字的字符串转换为ascii(gb2312)。例如:中->d6d0。上网看了N多的文章。要么是转换为unicode码,牛头不对马嘴。要么是采用对应表,写了几十K的代码。经过反复研究,查阅大量资料。...
1. **字符编码处理**:首先,需要将中文字符转换为Unicode编码,因为JavaScript原生支持Unicode字符处理。 2. **拼音数据库**:使用预定义的拼音数据库,这个数据库包含所有中文字符及其对应的拼音。当遇到一个中文...
本文实例讲述了JavaScript中字符串与Unicode编码互相转换的实现方法。分享给大家供大家参考,具体如下: 这段代码演示了JavaScript中字符串与Unicode编码的转换: // 为了控制台的演示方便, 变量没有添加 var 定义 /...
在JavaScript中,我们通常使用Unicode编码来表示汉字,而拼音则可以通过查找预先定义的汉字拼音库来获取。这些库通常包含了汉字与其对应的多音字拼音信息。例如,汉字“好”可以对应“hǎo”和“hào”两种读音。 1...
- **中文汉字转Unicode**:通过遍历字符串中的每个字符,获取其Unicode编码,然后将它们拼接成特定格式的字符串,如`\uXXXX`。`XXXX`为字符的十六进制Unicode码。 - **Unicode转中文汉字**:通过正则表达式匹配字符...
### JavaScript 实现 Unicode 和字符的互相转换 #### 一、引言 在处理文本数据时,经常需要将字符串转换为其 Unicode 编码形式,或从 Unicode 编码还原成原始字符。JavaScript 提供了强大的字符串操作功能,可以...
总的来说,GBK到Unicode的转换涉及到字符编码理论、字节处理和查表技术,对于理解和处理中文字符编码问题至关重要。在JavaScript环境中,开发者需要自定义实现这种转换,以兼容各种编码格式,确保数据的正确显示和...