`
r2100
  • 浏览: 30415 次
  • 来自: ...
社区版块
存档分类
最新评论

Unicode 问答集

阅读更多
问:什么是Unicode?
答:Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。Unicode标准已经被这些工业界的领导们所采用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。最新的标准都需要Unicode,例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等,并且,Unicode是实现ISO/IEC 10646的正规方式。许多操作系统,所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。

问:为什么使用Unicode?
答:基本上,计算机只是处理数字。它们指定一个数字,来储存字母或其他字符。在创造Unicode之前,有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符:例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言,例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。这些编码系统也会互相冲突。也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据总会有损坏的危险。

问:举个例子吧。
答:比如,简体中文(GB)、繁体中文(BIG5)、日文中,“赵”都是一个字,但是编码不同。在不同的编码下,BIG5的赵是0xBBAF,而0xBBAF在GB里面就被显示为“化”,这就是乱码。而Unicode采用统一的编码,“赵”只有一个,不必管他在哪种文字里。

问:Unicode的优点是什么?
答:举一个最明显的例子就是Windows 2000/XP以及微软Office2000及其后的产品。因为这些软件都是Unicode内核,因此,无论何种文字,都可以在上面正常显示,而且是同屏显示。以前,简体中文的Word文件拿到英文版打开就会是乱码,简体中文的程序在Windows英文版上运行会出现乱码,而现在一切都解决了。

问:中国京剧戏考为什么使用Unicode?
答:因为有些剧本中的生僻字,只在扩展字库或繁体字库中才有,有的甚至没有。而Unicode不仅包含了所有常用字和大部分生僻字,而且因为其可扩展,在现在没有的情况下,将来也是可以扩充的。例如最新的Unicode 4.0标准,较3.0增加了很多生僻字。目前有70207个汉字。再有一点就是Unicode在将来会取代现有的GBK及BIG5。

问:我如何能够看到不是乱码的剧本?
答:如果您阅读PDF的格式,只需要有Adobe Reader即可。如果您是在网站上直接阅读剧本,有时可能会出现乱码,请查看菜单(或右键单击剧本)中,选择编码,然后点Unicode (UTF-8) 即可。注意,有些字在早期的 Unicode 定义中还没有,所以建议您阅读PDF格式的剧本。详情请见这里。
分享到:
评论

相关推荐

    discuz问答插件 utf-8

    这款UTF-8版本的问答插件特别强调对多语言字符集的支持,确保在全球化背景下,用户可以流畅地使用各种语言进行提问和回答。 首先,我们要理解UTF-8编码的重要性。UTF-8是一种通用的多字节字符编码标准,能够表示...

    网络安全问答题.doc

    简述Unicode漏洞的基本原理。 5.简述缓冲区溢出攻击的原理。 6.简述拒绝服务的种类与原理。 9.简述DDoS的特点及常用的攻击手段,如何防范? 2、如何留后门程序?列举三种后门程序,并阐述原理及如何防御。 4、简述...

    易语言小黄鸡网络问答

    4. **字符串处理**:“双字节到宽字符1_”可能涉及到GBK或GB2312等双字节字符集向Unicode(宽字符)的转换,这是处理中文字符时常见的编码问题。在易语言中,正确处理字符串编码能避免乱码,确保中文信息的准确显示...

    自然语言处理数据集(NLP)-3万多条拆字词库.rar

    在NLP中,数据集起着至关重要的作用,它们被用于训练和评估各种NLP模型,以实现诸如文本分类、情感分析、机器翻译、问答系统等功能。本数据集“3万多条拆字词库”是专门为NLP任务设计的,尤其对于中文处理具有特殊...

    微软亚洲研究院语料库(1 089 050 字,训练集和测试集)

    UTF8是一种广泛使用的、包含所有Unicode字符的编码方式,能够处理全球多种语言,确保了数据的跨平台兼容性和国际化。GBK编码则主要应用于简体中文,它是GB2312编码的扩展,包含更多的汉字和符号,尤其在中国大陆地区...

    华为问答面试题.doc

    【华为问答面试题】涉及到的是IT行业的面试常见问题,涵盖了多个Java相关技术和概念。下面将对这些知识点进行详细的解释: 1. **ArrayList 和 Vector的区别**: - **同步性**:ArrayList是非同步的,线程不安全,...

    compiere-常见144个问答

    服务器端对数据库字符集有 Unicode 要求,而客户端操作系统语言并不影响 Compiere 的语言包使用,只需设置正确的语言显示。 10. **兼容性**:服务器端和客户端的操作系统语言不必匹配。例如,服务器端安装简体中文...

    compiere 常见144个问答

    服务器端操作系统语言并不限制Compiere语言包的安装,只要Oracle数据库的字符集支持Unicode,如简体中文、繁体中文或日文等亚洲语言,就可以在任何语言版本的操作系统上安装和使用相应的Compiere语言包。客户端操作...

    Java技术问答(带链接)

    - **char**: 16位Unicode字符,用于存储单个字符。 - **double**: 双精度浮点数,用于存储带有小数的较大数值。 - **float**: 单精度浮点数,用于存储带有小数的较小数值。 - **int**: 32位整数,是最常用的整数...

    精彩编程与编程技巧-VB编程俱乐部问答...

    需要注意的是,VBA默认使用`vbUnicode`字符编码,因此在进行字符串操作时需要适当转换。 #### 5. 处理字符串编码问题 在处理字符串时,字符串编码是一个常见的问题。在VB/VBA中,`StrConv`函数可以用来转换字符串...

    MySQL数据库设计规范(修正)1

    字符集的选择也影响多语言支持,utf8mb4能覆盖更多Unicode字符。 DAO层设计建议遵循单一职责原则,每个DAO对应一类操作,保持代码整洁。SQL编写时,DML语句(INSERT、UPDATE、DELETE)应明确、简洁,避免多表连接...

    VC知识库.rar

    9. **Unicode与MBCS**:理解Unicode字符集和MBCS(Multi-Byte Character Set)的区别,以及如何在VC项目中选择合适的字符编码。 10. **Winsock网络编程**:如果你想开发具有网络功能的应用,Winsock API是必要的,...

    Java经典问题答案(带书签)

    - Unicode问题:Unicode是一种字符集,它为世界上几乎所有已知的字符系统提供了一个唯一的编码方式,是处理文本的标准字符集。 - Eclipse简便设置:Eclipse是一个开源的IDE(集成开发环境),支持Java、C++等多种...

    cyask32_utf8.rar

    UTF-8是目前最广泛使用的Unicode编码方式,它可以兼容世界上几乎所有的字符集,确保不同语言的文字能在同一平台上正确显示。 2. **前端技术**:为了创建一个用户友好的界面,"cyask32_utf8" 可能使用了HTML、CSS和...

    现代汉语词典.zip

    2. **UTF-8编码**:UTF-8是一种广泛使用的Unicode编码,它可以表示几乎所有的世界上的字符,包括汉字。UTF-8的优点在于其兼容ASCII编码,且对于常见的西文字符,只需要一个字节,对于大部分汉字则使用三个字节,这样...

    windows中php安装intl拓展缺少的xxx51.dll文件

    ICU是一个跨平台的开源库,提供了丰富的API,用于处理字符集转换、日期和时间格式化、数字格式化、字符串比较和搜索等功能。它支持Unicode标准,确保在全球范围内正确处理各种语言和文化的数据。 2. PHP的`intl`...

    Web信息处理与应用复习笔记.pdf

    * IR的任务:基于用户查询的搜索、信息过滤、分类、问答 * IR的基础性问题:相关性计算、检索模型、评价、信息需求、检索性能 二、网络爬虫 * 网络爬虫的概念:从一个种子站点集合开始,从Web中寻找并且下载网页,...

    VB串口编程的几个问题.rar_VB 串口 收发_VB 串口通讯_VB串口_串口通讯

    ASCII编码只包含了0-127的字符,对于超出此范围的字符,我们需要使用扩展的字符集,如Unicode(UTF-8)。在发送时,需要将这些字符转换为对应的字节序列,然后逐个通过串口发送;在接收时,同样需要按照指定的编码...

    archive_ Sphinx全文检索引擎 for Windows v3.3.1 [江西新余电信].zip.zip

    在Windows环境下,这个版本可能支持多线程处理,以提高索引和搜索的效率,同时可能还增强了对Unicode字符集的支持,确保了对各种语言文字的良好处理。 "output.txt"可能是安装或运行Sphinx过程中产生的日志文件,...

Global site tag (gtag.js) - Google Analytics