基础概念
一、基础概念
概念 | 英文 | 说明 | 其他 |
比特 | bit | 数据传输大多以比特为单位 | 二进制位:0或1 |
字节 | Byte | 数据存储以字节为单位 | 1Byte = 8 bit |
字符 | Character | 计算机中使用的文字和符号 | 比如:1、2、3、A、B、C |
字符集 | Charset | 是一个系统支持的所有抽象字符的集合 | 字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等 |
字符编码 | Character Encoding | 将符号转换为计算机可以接受的数字系统的数,称为数字代码 | - |
编码规则 | - | 将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程) | - |
代码点 | Code Point | 码位 / 码点 | 是指一个编码表中的某个字符对应的代码值,也就是Unicode编码表中每个字符对应的数值;为每一个「字符」分配一个唯一的 ID |
代码单元 | Code Unit | 在UTF-16中的基本多语言级别中,每一个字符用16位表示,通常被称为代码单元 | Java中Character采用UTF-16编码,占两字节,即一个字符,可表示一个汉字 |
ASCII | American Standard Code for Information Interchange | 美国信息互换标准代码 | ASCII码使用7bit表示一个字符,共128个字符;0表示空,1~32 控制码;33~127 字母、数字; |
ISO-8859-1 | - | ASCII基础上扩展 | 用8bit表示1个字符,共256个 字符;128~255 扩展编码 |
GB2312 | - | 在ASCII基础上扩展;一个小于127的字符的意义与原来相同,即ASCII;两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE | 半角:ASCII中即0~127的字符;全角:在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码 |
GBK | - | 在GB2312基础上扩展;第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字 | GBK包含GB2312 |
GB18030 | - | 在GBK基础上扩展,与GBK基本兼容 | 包含少数民族文字 |
BIG5 | - | Big5码是一套双字节字符集,使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为"高位字节",第二个字节称为"低位字节"。"高位字节"使用了0x81-0xFE,"低位字节"使用了0x40-0x7E,及0xA1-0xFE | 繁体字字符集 |
DBCS | Double Byte Charecter Set | 双字节字符集;GB2312/GBK/GB18030统称 | 两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里 |
Unicode | Universal Multiple-Octet Coded Character Set,简称UCS | 规定用16位即2字节表示所有字符;原ASCII中的半角字符因只占1字节,扩展后高位字节为0 | 是一种字符集 |
通用字符集 | Universal Character Set,UCS | 由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟 | - |
UCS-2 | Universal Character Set coded in 2 octets | UCS-2是用两个字节来表示代码点 | 其取值范围为 U+0000~U+FFFF |
UCS-4 | Universal Character Set coded in 4 octets | UCS-2是用四个字节来表示代码点 | 范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一样的 |
UTF | UCS Transfer Format | Unicode传输标准,每次传输的比特数 | 规定存储方式 |
UTF-8 | - | 每次8个位传输数据 | 是一种字符编码方案,变长的编码方式,使用1~4个字节表示一个符号,根据不同的符号而变化字节长度 |
UTF-16 | - | 每次16个位传输数据 | 是一种字符编码方案,两个字节来表示一个代码点 |
UTF-16BOM | BOM(Byte Order Mark) | 文件开头需要通过字符标明当前是大头顺序or小头顺序 | FFFE 小头,FEFF大头,与UCS-2完全对应 |
UTF-16BE | Big Endian | 大头顺序,即高位在前,低位在后 | - |
UTF-16LE | Little Endian | 小头顺序,即低位在前,高位在后 | - |
UTF-32 | - | 每次32位传输数据 | 是一种字符编码方案,用四个字节表示代码点,与UCS-4完全对应 |
博文参考:
Unicode 和 UTF-8 有何区别?
Unicode详解(UCS-2,UCS-4,UTF-8,UTF-16,UTF-32)
二、字符与字节在不同编码格式下的对应
单位:字节编码格式 | 英文数字 | 汉字 | 半角标点 | 全角标点 |
ASCII | 1 | 2 | 1 | 2 |
GB2312 | 1 | 2 | 1 | 2 |
UTF-8 | 1 | 3 | 1 | 3 |
Unicode | 2 | 2 | 2 | 2 |
UTF-16 | 2 | 2 | 2 | 2 |
UTF-32 | 4 | 4 | 4 | 4 |
博客参考:
字符与字节有什么区别
三、Unicode
1.Little endian和Big endian
第一个字节在前,Big endian
第二个字节在前,Little endian
参考博客:
http://blog.csdn.net/lcfeng1982/article/details/6830584
http://blog.csdn.net/tianjf0514/article/details/7854624
2.UTF-16 UTF16BE UTF16LE UTF16BOM
“ABC”这三个字符用各种方式编码后的结果如下:
UTF-16BE 00 41 00 42 00 43
UTF-16LE 41 00 42 00 43 00
UTF-16(Big Endian) FE FF 00 41 00 42 00 43
UTF-16(Little Endian) FF FE 41 00 42 00 43 00
UTF-16(不带BOM) 00 41 00 42 00 43
四、
博文参考:
http://bbs.csdn.net/topics/270062448
分享到:
相关推荐
在《概率论基本概念》中,柯尔莫哥洛夫试图将概率论的基础概念融入现代数学的普遍概念之中。在此之前,概率论的概念被认为是非常特殊的。然而,随着勒贝格在测度和积分理论方面的研究发表之后,集合的测度与事件的...
总之,《通信网:基本概念与主体结构》全面覆盖了通信网络的基础知识和核心技术,对于学习通信工程的学生、从事网络设计与维护的专业人士,或是对通信网络感兴趣的读者来说,都是一本不可或缺的参考书籍。...
【电路的基本概念】 电路是电气工程的基础,它是由电源、负载和中间环节组成的系统,用于电能的传输、转换和信号的传递处理。电源提供电能,负载消耗电能,中间环节则包括导线、开关、控制器等,用于连接和控制电路...
C语言程序设计是计算机科学的基础课程,本节习题涵盖了C语言程序设计的基本概念,包括C语言程序的基本结构、编译和连接过程、算法的基本特征、程序的执行流程等。通过本节习题的学习,可以帮助读者深入了解C语言程序...
### 物理学基本概念和基本定律溯源 #### 核心知识点概述 1. **物理学史在教学中的应用** - 引入物理学史能够提升教学质量,并有助于学生更深刻地理解物理概念。 - 教学中应恰当融入历史背景,以辅助而非主导课程...
计算机操作系统基本概念集合 以下是对计算机操作系统基本概念的总结和解释: 一、操作系统的基本概念 操作系统是计算机系统中的基础软件,提供了三种类型的使用接口:命令方式、系统调用和图形用户界面。操作系统...
WCDMA基本概念总结:基本概念+附录(结构图片)+华为RAN侧产品硬件+呼叫流程
计算机数据存储是信息技术的核心组成部分,理解其基本概念对于掌握计算机工作原理至关重要。计算机的发展历程经历了四代,从最初的电子管到现在的大规模集成电路,这期间计算机的性能和应用领域都发生了巨大变化。...
改PPT是关于《通信网基本概念及其主体结构》一书的
多元函数的基本概念 解释全面 思路清晰,内容完整,原创! 最完整的,最易懂的 PPT
数据库系统的基础概念是理解计算机数据管理和存储的关键。数据是数据库中的基本单元,它可以是数字、文字、图形或声音等形式...了解并掌握数据库系统的基本概念和数据模型,对于开发、管理和维护数据存储系统至关重要。
《数理统计习题教程(上下)》为《数理统计——基本概念及专题》的配套习题解答。主要内容包括概率论中的一些课题、统计模型、估计方法、估计的比较——最优化理论、从估计到置信区间和假设检验、最优化检验与置信区间...
系统响应是系统理论的重要组成部分,零输入响应(ZIR)、零状态响应(ZSR)和全响应(FR)是分析线性时不变系统动态特性的三个基本概念。系统稳定性是另一个关键问题,Bode图和Nyquist图是判断系统稳定性的常用方法...
测试基本概念和单元测试
基于STM32节点和阿里云IoT平台 的物联网应用开发 系列课程 第二章 阿里云IoT平台介绍 课程内容下载、观看 • 视频观看:AI电堂、阿里云大学IoT课堂 ...• 第二节:物联网平台基础概念讲解 • 介绍设备与平台相关概念
Juniper Netscreen 防火墙培训 防火墙基本概念
从智能电网到能源互联网-基本概念与研究框架
GPS中的基本概念,适合初学者使用,还有课件,随后会上传