mark:
1.ASCII 码
学过计算机的人都知道 ASCII 码,ASCII 码是美国标准信息交换代码(American Standard Code for Information Interchange)的缩写, 为美国英语通信所设计。它由128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表符等4个)以及控制字符(退格、响铃等)组成。 总共有 128 个,用一个字节的低 7 位表示,0~31 是控制字符如换行回车删除等;32~126 是打印字符,可以通过键盘输入并且能够显示出来。 例如'A'是65,'a'是97。
但是,由于它是针对英语设计的,当处理带有音调标号(形如汉语的拼音)的欧洲文字时就会出现问题。
2.ISO-8859-1
128 个字符显然是不够用的,于是 ISO 组织在 ASCII 码基础上又制定了一些列标准用来扩展 ASCII 编码,它们是 ISO-8859-1~ISO-8859-15,其中 ISO-8859-1 涵盖了大多数西欧语言字符,所有应用的最广泛。ISO-8859-1 仍然是单字节编码,它总共能表示 256 个字符。
3.GB2312
它的全称是《信息交换用汉字编码字符集基本集》,它是双字节编码,总的编码范围是 A1-F7,其中从 A1-A9 是符号区,总共包含 682 个符号,从 B0-F7 是汉字区,包含 6763 个汉字:其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GB2312基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。
4.GBK
GBK是汉字编码标准之一,全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification)。GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准,是前者向后者过渡过程中的一个承上启下的标准。
5.Unicode
Unicode(Universal Code 统一码)是基于通用字符集(Universal Character Set)的标准来发展, Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。它通过增加一个高字节对ISO Latin-1字符集进行扩展,当这些高字节位为0时,低字节就是ISO Latin-1字符。UNICODE支持欧洲、非洲、中东、亚洲(包括统一标准的东亚象形汉字和韩国象形文字)。但是,UNICODE并没有提供对诸如Braille, Cherokee, Ethiopic, Khmer, Mongolian, Hmong, Tai Lu, Tai Mau文字的支持。同时它也不支持如Ahom, Akkadian, Aramaic, Babylonian Cuneiform, Balti, Brahmi, Etruscan, Hittite, Javanese, Numidian, Old Persian Cuneiform, Syrian之类的古老文字。
事实证明,对可以用ASCII表示的字符使用UNICODE并不高效,因为UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Universal Transformation Format)。
unicode编码规范中常用的是utf-16和utf-8。
6.UTF-16
UTF-16 用两个字节来表示 Unicode 转化格式,这个是定长的表示方法,不论什么字符都可以用两个字节表示,两个字节是 16 个 bit,所以叫 UTF-16。UTF-16 表示字符非常方便,每两个字节表示一个字符,这个在字符串操作时就大大简化了操作,这也是 Java 以 UTF-16 作为内存的字符存储格式的一个很重要的原因。
UTF-16 统一采用两个字节表示一个字符,虽然在表示上非常简单方便,但是也有其缺点,有很大一部分字符用一个字节就可以表示的现在要两个字节表示,存储空间放大了一倍,在现在的网络带宽还非常有限的今天,这样会增大网络传输的流量,而且也没必要。
7.UTF-8
UTF-8 采用了一种变长技术,每个编码区域有不同的字码长度。UTF-8用1到6个字节编码UNICODE字符。如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。UTF-8 可以在同一个页面显示中文简体繁体及其它语言(如日文,韩文) 。
实际表示ASCII字符的UNICODE字符,将会编码成1个字节,并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。
小结:
对中文字符后面四种编码格式都能处理,GB2312 与 GBK 编码规则类似,但是 GBK 范围更大,它能处理所有汉字字符,所以 GB2312 与 GBK 比较应该选择 GBK。UTF-16 与 UTF-8 都是处理 Unicode 编码,它们的编码规则不太相同,相对来说 UTF-16 编码效率最高,字符到字节相互转换更简单,进行字符串操作也更好。它适合在本地磁盘和内存之间使用,可以进行字符和字节之间快速切换,如 Java 的内存编码就是采用 UTF-16 编码。但是它不适合在网络之间传输,因为网络传输容易损坏字节流,一旦字节流损坏将很难恢复,想比较而言 UTF-8 更适合网络传输,对 ASCII 字符采用单字节存储,另外单个字符损坏也不会影响后面其它字符,在编码效率上介于 GBK 和 UTF-16 之间,所以 UTF-8 在编码效率上和编码安全性上做了平衡,是理想的中文编码方式。
分享到:
相关推荐
电子工厂常用物料编码规范 本文档对电子工厂常用物料编码规范进行了详细的介绍和解释,旨在帮助电子工厂实现物料的科学管理和高效率的生产。该规范涵盖了物料编码的范围、编码原则、编码规定、编码方法等方面的内容...
包含以下波形码,有需要的朋友去取。 1. UPD1621G 2. UPD1621G 3. TCP9012F 4. M50560 5. LC7461-C13 6. LC7461-C13 7. M3004 8. M3004 9. SAA3010(RC-5) 10. UPD1986 11. MV500 12. ZENITH ...28. SONY
长安电缆厂的编码方案是一个典型的实例,它主要用于CRM(Customer Relationship Management,客户关系管理)产品经理的需求规格说明书管理系统中。这个编码方案的设计旨在优化成品的管理流程,提高数据准确性和操作...
- 工字钢 (I-beam) - 包括不同规格的工字钢 - 海关编码:721632900, 721610200, 721632100 - 丁字钢 (T-beam) - 如截面高度 的丁字钢 - 海关编码:72162200,退税率:0% - 槽钢 (Channel steel) - 如截面高度的...
从出现的编码和字母数字组合来看,这份表格应该包含了仪器设备的唯一标识符,这些标识符可能与它们的功能、用途、型号或规格有关。 在文件内容中,我们可以看到很多的数字和字母组合,如“***...”,这些看似随机的...
推挽接口则是一种常用的逻辑电平输出接口。供电电压可以根据需要选择5VDC或10-30VDC,这为不同类型的设备提供了灵活的接口选择。 连接方式上,该系列编码器支持轴向电缆和径向电缆的输出,以及M23插座连接方式,...
ControlCAN.dll可能是一个动态链接库文件,用于支持与编码器的CAN总线通信,CAN(Controller Area Network)总线是工业自动化领域常用的一种串行通信协议,特别适合实时性和可靠性的要求。 在AGV中,配置编码器涉及...
在二维码规格和纠错等级确定的情况下,其实它所能容纳的码字总数和纠错码字数也就确定了。 构造最终数据信息是指将上面产生的序列按次序放如分块中,然后对每一块进行计算,得出相应的纠错码字区块,把纠错码字区块...
这类编码器是工业自动化领域中常用的一种传感器,用于精确测量机械设备的旋转角度和速度。3D技术图将为用户提供详细的设备结构和安装指南。 描述中的信息简洁明了,重复强调了这是FRABA绝对旋转式编码器的3D技术图...
增量型旋转编码器是自动化和控制系统中常用的一种位置传感器,它通过测量轴的旋转角度来确定其位置,并将该信息转换为电信号输出。在了解这款编码器的具体知识点之前,需要明确编码器的基本原理和分类。编码器按其...
森特奈编码器是工业自动化领域中常用的高精度传感器设备,用于测量机械运动的速度、位置或角度。安装森特奈编码器附件对于确保设备的准确运行至关重要。在本压缩包中,我们找到了一个名为"SENTINEL-森特奈 编码器...
这份“UL标准电子线常用规格表”列出了多种不同规格的电子线,每种线都有其特定的耐压、温度、材质和用途。 1. **耐压与温度**:耐压是指电线能承受的最大电压,温度则表示电线在正常工作状态下可承受的最高温度。...
弹性联接器常用的规格应与编码器端孔径和用户端孔径相匹配,常用规格包括Φ4mm、Φ5mm、Φ6mm、Φ8mm、Φ10mm、Φ15mm等尺寸。选择合适的弹性联接器可以确保编码器与应用设备的同轴度在0.2mm以内,轴向偏角不超过1.5...
拉线式编码器是一种常用的测量设备,广泛应用于工业自动化领域,尤其在长度、位移、速度和角度的精确测量中发挥着重要作用。SICK作为知名的传感器制造商,其拉线式编码器产品以其高精度和可靠性著称。在这个压缩包...
### 常用贴片钽电容规格书-Samsung-scs系列 #### 一、产品概述 本规格书主要介绍了三星(Samsung)SCS系列贴片钽电容器的相关技术细节和应用领域。SCS系列是三星环境标准系列的缩写,这类电容器具有小型化的特点,...
SSI(同步串行接口)是工业上常用的一种高速、高精度的串行通信方式,GMS412编码器支持高达500KHz的时钟频率,推荐使用时钟频率为125KHz。它支持12位和13位时钟信号的自动识别兼容,提供了较高的灵活性。 GMS412...
回流焊是电子组装过程中常用的焊接技术,意味着该编码器可以承受高温焊接过程,适合于需要表面贴装技术(SMT)的电路板上。同时,防静电设计表明编码器具备一定的抗静电干扰能力,保证在静电环境中也能稳定工作。 4...
需求规格说明书是软件开发过程中的核心文档之一,它详细阐述了软件系统的需求,为后续的设计、编码、测试和维护提供了明确的指导。本压缩包文件包含了一份名为“3、需求规格说明书.doc”的文档,它是软件开发流程中...