代码点指编码表(比如Unicode)中某个字符的代码值(数字),书写时前面加U+,比如U+0041是字母A的代码点
java中的代码单元指表示编码表字符的最小存储单元,用16位表示
Unicode 代码点 |
U+0041 |
U+00DF |
U+6771 |
U+10400 |
||||||||||
表示字形 |
||||||||||||||
UTF-32 代码单元 |
|
|
|
|
||||||||||
UTF-16 代码单元 |
|
|
|
|
||||||||||
UTF-8 代码单元 |
|
|
|
|
增补字符,用两个代码单元表示的字符
网摘:
"代码点(Code Point)就是指Unicode中为字符分配的编号,一个字符只占一个代码点,例如我们说到字符“汉”,它的代码点是U+6C49.代码单元(Code Unit)则是针对编码方法而言,它指的是编码方法中对一个字符编码以后所占的最小存储单元。例如UTF-8中,代码单元是一个字节,因为一个字符可以被编码为1个,2个或者3个4个字节;在UTF-16中,代码单元变成了两个字节(就是一个char),因为一个字符可以被编码为1个或2个char(你找不到比一个char还小的UTF-16编码的字符,嘿嘿)。说得再罗嗦一点,一个字符,仅仅对应一个代码点,但却可能有多个代码单元(即可能被编码为2个char)。
以上概念绝非学术化的绕口令,这意味着当你想以一种统一的方式指定自己使用什么字符的时候,使用代码点(即你告诉你的程序,你要用Unicode中的第几个字符)总是比使用代码单元更好(因为这样做的话你还得区分情况,有时候提供一个16进制数字,有时候要提供两个)。"
想找到第i个代码点,使用下列语句
int index = greeting.offsetByCodePoints(0,i); //得到0开始便宜i个代码点的索引值(数字)
int cp = greeting.codePointAt(index); // 返回char值(unicode对应数字)
字符编码
你是否认为 ASCII 码就是一个字符,一个字节就是一个字符,一个字符就是 8 比特?你是否认为 UTF-8 就是用 8 比特表示一个字符?如果真的是这样认为这篇文章就很适合你。
为什么要有编码?
首先大家需要明确的是在计算机里所有的数据都是字节的形式存储和处理的。我们需要字节来表示计算机里的信息,但是这些字节本身又是没有任何意义的。我们需要对这些字节赋予实际的意义,制定各种编码标准。编码模型
首先需要知道的是存在两种编码模型
简单字符集
在这种编码模型里,一个字符集定义了这个字符集里包含什么字符,同时把每个字符如何对应成计算机里的比特也进行了定义。例如 ASCII,在 ASCII 里直接定义了 A -> 0100 0001。
现代编码模型
在现代编码模型里要知道一个字符如何映射成计算机里比特,需要经过如下几个步骤:
- 知道一个系统需要支持哪些字符,这些字符的集合被称为字符表(Character repertoire)
- 给字符表里的抽象字符编上一个数字,也就是字符集合到一个整数集合的映射。这种映射称为编码字符集(CCS:Coded Character Set), unicode 是属于这一层的概念,unicode 跟计算机里的什么进制啊没有任何关系,它是完全数学的抽象的。
- 将 CCS 里字符对应的整数转换成有限长度的比特值,便于以后计算机使用一定长度的二进制形式表示该整数。这个对应关系被称为字符编码表(CEF:Character Encoding Form)UTF-8, UTF-16 都属于这层。
- 对于 CEF 得到的比特值具体如何在计算机中进行存储,传输。因为存在大端小端的问题,这就会跟具体的操作系统相关了。这种解决方案称为字符编码方案(CES:Character Encoding Scheme)。
平常我们所说的编码都在第三步的时候完成了,并没有涉及到 CES。所以 CES 并不在本文的讨论范围之内。
现在也许有人会想为什么要有现代的编码模型?为什么在现在的编码模型要拆分出这么多概念?直接像原始的编码模型直接都规定好所有的信息不行吗?这些问题在下文的编码发展史中都会有所阐述编码的发展史
ASCII
ASCII 出现在上个世纪 60 年代的美国,ASCII 一共定义了 128 个字符,使用了一个字节的 7 位。定义的这些字符包括英文字母 A-Z,a-z,数字 0-9,一些标点符号和控制符号。在 Shell 里输入man ASCII
,可以看到完整的 ASCII 字符集。ASCII 采用的编码模型是简单字符集,它直接定义了一个字符的比特值表示。里例如上文提到的A -> 0100 0001
。也就是 ASCII 直接完成了现代编码模型的前三步工作。
在英语系国家里 ASCII 标准很完美。但是不要忘了世界上可有好几千种语言,这些语言里不仅只有这些符号啊。如果使用这些语言的人也想使用计算机,ASCII 就远远不够了。所以到这里编码进入了混乱的时代。
混乱时代
人们知道计算机的一个字节是 8 位,可以表示 256 个字符。ASCII 却只使用了 7 位,所以人们决定把剩余的一位也利用起来。这时问题出现了,人们对于已经规定好的 128 个字符是没有异议的,但是不同语系的人对于其他字符的需求是不一样的,所以对于剩下的 128 个字符的扩展会千奇百怪。而且更加混乱的是,在亚洲的语言系统中有更多的字符,一个字节无论如何也满足不了需求了。例如仅汉字就有 10 万多个,一个字节的 256 表示方式怎么能够满足呢。于是就又产生了各种多字节的表示一个字符方法(gbk 就是其中一种),这就使整个局面更加的混乱不堪。(希望看到这里的你不再认为一个字节就是一个字符,一个字符就是8比特)。每个语系都有自己特定的编码页(code pages)的状况,使得不同的语言出现在同一台计算机上,不同语系的人在网络上进行交流都成了痴人说梦。这时 Unicode 出现了。
Unicode
Unicode 就是给计算机中所有的字符各自分配一个代号。Unicode 通俗来说是什么呢?就是现在实现共产主义了,各国人民不在需要自己特定的国家身份证,而是给每人一张全世界通用的身份证。Unicode 是属于编码字符集(CCS)的范围。Unicode 所做的事情就是将我们需要表示的字符表中的每个字符映射成一个数字,这个数字被称为相应字符的码点(code point)。例如“严”字在 Unicode 中对应的码点是 U+0x4E25。
到目前为止,我们只是找到了一堆字符和数字之间的映射关系而已,只到了CCS的层次。这些数字如何在计算机和网络中存储和展示还没有提到。
字符编码
前面还都属于字符集的概念,现在终于到 CEF 的层次了。为了便于计算的存储和处理,现在我们要把哪些纯数学数字对应成有限长度的比特值了。最直观的设计当然是一个字符的码点是什么数字,我们就把这个数字转换成相应的二进制表示,例如“严”在 Unicode 中对应的数字是 0x4E25,他的二进制是100 1110 0010 0101
,也就是严这个字需要两个字节进行存储。按照这种方法大部分汉字都可以用两个字节来表示了。但是还有其他语系的存在,没准儿他们所使用的字符用这种方法转换就需要 4 个字节。这样问题又来了到底该使用几个字节表示一个字符呢?如果规定两个字节,有的字符会表示不出来,如果规定较多的字节表示一个字符,很多人又不答应,因为本来有些语言的字符两个字节处理就可以了,凭什么用更多的字节表示,多么浪费。
这时就会想可不可以用变长的字节来存储一个字符呢?如果使用了变长的字节表示一个字符,那就必须要知道是几个字节表示了一个字符,要不然计算机可没那么聪明。下面介绍一下最常用的 UTF-8(UTF 是Unicode Transformation Format的缩写)的设计。请看下图(来自阮一峰的博客)
x 表示可用的位
通过 UTF-8 的对应关系可以把每个字符在Unicode 中对应的码点,转换成相应的计算机的二进制表示。可以发现按照 UTF-8 进行转换是完全兼容原先的 ASCII 的;而且在多字节表示一个字符时,开头有几个 1 就表示这个字符按照 UTF-8 转换后由几个字节表示。下面一个实例子来自阮一峰的博客
已知“严”的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000 FFFF),因此“严”的UTF-8编码需要三个字节,即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“严”的UTF-8编码是“11100100 10111000 10100101”,转换成十六进制就是0xE4B8A5。
除了 UTF-8 这种转换方法,还存在 UTF-16,UTF-32 等等转换方法。这里就不再多做介绍。(注意UTF后边的数字代表的是码元的大小。码元(Code Unit)是指一个已编码的文本中具有最短的比特组合的单元。对于 UTF-8 来说,码元是 8 比特长;对于 UTF-16 来说,码元是 16 比特长。换一种说法就是 UTF-8 的是以一个字节为最小单位的,UTF-16 是以两个字节为最小单位的。)
代码点(Code Point):Unicode是属于编码字符集(CCS)的范围。Unicode所做的事情就是将我们需要表示的字符表中的每个字符映射成一个数字,这个数字被称为相应字符的码点(code point)。例如“严”字在Unicode中对应的码点是U+0x4E25。
代码点是字符集被编码后出现的概念。字符集(Code Set)是一个集合,集合中的元素就是字符,比如ASCII字符集,其中的字符就是'A'、'B'等字符。为了在计算机中处理字符集,必须把字符集数字化,就是给字符集中的每一个字符一个编号,计算机程序中要用字符,直接用这个编号就可以了。于是就出现了编码后的字符集,叫做编码字符集(Coded Code Set)。编码字符集中每一个字符都和一个编号对应。那么这个编号就是代码点(Code Point)。
代码单元(Code Unit):是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说,码元是8比特长;对于UTF-16来说,码元是16比特长。换一种说法就是UTF-8的是以一个字节为最小单位的,UTF-16是以两个字节为最小单位的。
代码单元是把代码点存放到计算机后出现的概念。一个字符集,比如有10个字符,每一个字符从0到9依次编码。那么代码点就是0、1、。。。、9。为了在计算机中存储这10个代代码点,一个代码点给一个字节,那么这里的一个字节就是一个代码单元。比如Unicode是一个编码字符集,其中有65536个字符,代码点依次为0、1、2、。。。、65535,为了在计算机中表示这些代码点就出现了代码单元,65536个代码点为了统一表示每个代码点必须要有两个字节表示才行。但是为了节省空间0-127的ASCII码就可以不用两个字节来表示,只需要一个字节,于是不同的表示方案就形成了不同的编码方案,比如utf-8、utf-16等。对utf-8而言代码单元就是一个字节,对utf-16而言代码单元就是两个字节。
相关推荐
本标准还定义了一系列与不动产单元设定和编码相关的专业术语,如地籍区、地籍子区、宗地、宗海、界址线、界址点、幢、房屋、定着物、定着物单元、不动产、不动产单元、不动产单元代码等,以确保在标准的使用过程中...
2. 单元隔离:为了确保测试的独立性,需要将被测试的单元与其他部分代码隔离。这通常通过使用 Mock 或 Stub 对象来实现,模拟外部依赖,避免真实环境的影响。 3. 唯一测试:每个测试用例应该只测试一个特定的行为或...
【系统代码复审和单元测试报告】 在软件开发过程中,代码复审和单元测试是确保产品质量和稳定性的重要环节。在“就业服务系统”的开发中,这些步骤尤其关键,因为该系统旨在连接企业和求职者,涉及大量的信息管理和...
7. **持续集成(CI)与持续测试**:通过将单元测试自动化并集成到CI/CD流程中,可以在代码提交时立即发现和修复问题,避免了后期集成阶段的问题积累。 8. **mocking和Stubbing**:在单元测试中,有时需要隔离被测试...
在Java开发过程中,单元测试是确保代码质量的重要环节。它帮助开发者发现并修复问题,提高软件的稳定性和可维护性。而代码覆盖率则是衡量单元测试有效性的一个关键指标,它表示了被测试代码被执行的程度。JaCoCo是一...
走读代码主要包括文档和源程序代码、检查项目、检查功能、检查界面、检查流程、检查提示信息、函数检查、数据类型与变量检查、条件判断检查、循环检查、输入输出检查、注释检查、程序(模块)检查、数据库检查等14大...
在本单元测试实例中,我们将探讨如何针对C#应用程序中的特定功能编写单元测试代码。主要涉及以下几个关键知识点: 1. **单元测试**:单元测试是一种软件开发实践,它允许开发者独立地测试代码的各个部分,确保每个...
单元测试的代码覆盖率至少80%!一大早,一个年轻的程序员问大师:“我准备写一些单元测试用例。代码覆盖率应该达到多少为好?”大师回答道:“不要考虑代码覆盖率,只要写出一些好的测试用例即可。” 一大早,一个...
7. **单元测试代码统计**:这表明插件不仅提供覆盖率信息,还可能有其他与单元测试相关的统计功能,比如测试用例的数量、失败率等。 在实际开发中,通过使用这个插件,开发者可以提高测试的全面性,减少潜在的bug,...
- 代码重构与测试:重构时,确保测试始终通过,作为安全网。 - 持续集成:结合CI/CD工具,每次提交代码都自动运行单元测试。 通过阅读《单元测试的艺术》并实践提供的源代码,开发者可以学习如何编写高质量的单元...
EclEmma是一款强大的Java单元测试代码覆盖率工具,它为开发者提供了直观的方式来衡量和评估他们的单元测试的质量。在软件开发过程中,单元测试是确保代码正确性和可靠性的关键步骤,而EclEmma则帮助开发者确保测试...
"cpp单元代码测试"这一主题,就是关于如何在C++项目中实施单元测试的实践。 C++中常用的单元测试框架有Google Test (gtest) 和 Catch2 等。Google Test 是 Google 推出的一个强大且易用的开源测试框架,支持C++98至...
单元测试是软件开发过程中的重要环节,主要用于验证代码的各个独立模块是否按预期工作。源代码则是程序员编写的程序文本,包含了实现特定功能的指令。在这个压缩包文件中,"src"目录很可能是包含了用于单元测试的源...
代码审查是团队协作开发中的一项重要实践,通过同行评审来发现潜在的问题和改进点。Go-goreporter在代码审查方面提供了辅助,它能检查代码风格是否符合Go语言的最佳实践,比如遵循Go的命名约定、避免使用全局变量等...
在这个例子中,我们创建了一个名为`TestJavaLinesCounter`的测试类,其中包含了三个测试方法,分别测试空文件、单行Java代码和包含注释与空行的文件。每个`test_`开头的方法都会被`unittest`框架自动运行,并基于`...
5. **可测试性**:确认代码是否易于编写单元测试和集成测试,以确保功能的正确性。 在软件测试中,代码审查是预测试阶段的重要组成部分。通过在代码进入自动化测试之前进行审查,可以提前发现并修复问题,减少测试...
提高C/C++代码质量的三种关键工具和方法:静态分析、代码审查与单元测试。首先,静态分析通过解析源代码,在不运行程序的情况下检测潜在的错误、规范违例和性能问题,推荐使用Clang-Tidy、Cppcheck等工具,并强调将...
基于java web 第3单元编写的代码,请同学们慎用。稍加删改可以作为销售类网页门户,一定要记得把照片地址进行删改。