最近因为工作需要,了解了一下网站编码的一些知识,现做一些小小的总结:
Utf-8与Ascii区别:UTF-8(8 位Universal Character Set/Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。
UTF-8是ASCII的一个超集。因为一个纯ASCII字符串也是一个合法的UTF-8字符串,所以现存的ASCII文本不需要转换。为传统的扩展ASCII字符集设计的软件通常可以不经修改或很少修改就能与UTF-8一起使用。
utf8_unicode_ci和utf8_general_ci区别
在phpMyAdmin中有多种字符集,其中utf8_unicode_ci和utf8_general_ci是最常用的,但是utf8_general_ci对某些语言的支持有一些小问题,如果可以接受,那最好使用utf8_general_ci,因为它速度快。否则,请使用较为精确的utf8_unicode_ci,不过速度会慢一些。
Unicode(统一码、万国码、单一码、标准万国码)是业界的一种标准,它可以使电脑得以呈现世界上数十种文字的系统。
Unicode的汉字处理方法一直备受抨击。有指这种把数万汉字逐一编码的方式,非常浪费资源,要把汉字加到Unicode标准中也不容易。也有批评处理Unicode中汉字编码的专家,并不是真正研究汉字的学者[2]。从早期的中文电脑时期开始,已有研究以部件产生汉字(动态组字),取代汉字逐一编码方法。
GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan11)中“扩”字的声母。GBK 來自中国国家标准代码GB 13000.1-93。
字符有一字节和双字节编码,00–7F范围内是一位,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。
GBK/1和GBK/2的领域即GB 2312-80用通常方法编码的区域。GB 2312 (正确说法是其根据EUC-CN的编码)和ISO/IEC 2022中调用GR其他的94² 字符集一样,A1–FE的范围开始读取字节对。这是上图中右下角的不分。但是,GB 2312中对于AA–AF和F8–FE区域是空的,没有赋予编码。于是GBK就在这些领域里进行拓展。二者剩余部分作为用户定义区。
GBK比GB2312能显示更多的汉字
GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。
BIG5是台湾计算机界实行的汉字编码字符集。
它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。编码范围是 0x8140-0xFE7E、0x81A1-0xFEFE,其中 0xA140-0xA17E、0xA1A1-0xA1FE 是图形符号区,0xA440-0xF97E、0xA4A1-0xF9FE 是汉字区。
Big5也是繁体的意思,GB是简体的意思
EUC全名为Extended Unix Code,是一个使用8位编码来表示字符的方法。
它使用了一些兼容于ISO/IEC 2022区位码的94x94编码表,把每个区位加上0xA0来表示,以便兼容于ASCII。
它主要用于表示及储存汉语文字、日语文字及朝鲜文字。
GBK包括简体和繁体,但是GB2312只包括简体
分享到:
相关推荐
分页存储过程在Web应用中广泛使用,因为它能有效地加载和展示大结果集的子集,提高用户体验并减轻服务器负担。这里我们将详细解析提供的两个分页存储过程代码。 首先,我们来看第一个存储过程`[sq8reyoung].[fenye_...
它将任何可打印的字符转换成一个由64个可打印字符组成的特定字符集,这64个字符包括大小写字母、数字以及"+"和"/",为了确保所有字符都是URL和邮件安全的,有时还会用到"-"和"_"替代"+"和"/"。 中文字符在计算机中...
`UTF-8`(Unicode Transformation Format - 8 bit)是Unicode字符集的一种变码方式,它是目前互联网上最常用的字符编码。`UTF-8`的特点是可以表示Unicode中的所有字符,包括汉字,而且它对ASCII字符保持了原有的编码...
标题“gb2unicode”指的是一个Java程序,它的主要功能是将使用GBK(GB2312)编码的字符集转换为Unicode编码。GBK是中国大陆广泛使用的汉字编码标准,而Unicode是一个国际化的字符集,包含了世界上几乎所有的文字系统...
它包括了33个控制字符和95个可显示字符,这些字符构成了计算机系统中最基础的字符集。 #### 二、ASCII码的基本结构 ASCII码表分为两部分:基本ASCII码和扩展ASCII码。 - **基本ASCII码**(0-127):这部分字符在...
4. Unicode(UTF系列):Unicode是一个通用字符集,包括了全世界几乎所有的字符,其中UTF-8编码是目前最广泛使用的,它能兼容ASCII编码并能表示所有Unicode字符,包括汉字。 二、汉字内码的作用 汉字内码的作用...
在IT领域,文件编码是数据在计算机中存储和传输时使用的字符集表示方式。编码转换器源码是用来处理不同字符编码之间转换的程序代码。在这个特定的“文件编码转换器源码”中,主要涉及了从GB2312编码到UTF-8编码的...
它的核心思想是创造一个统一的字符集,使得每一个字符都能被编码进这个集合中,从而解决计算机中字符编码不统一的问题。Unicode为每个字符分配了一个唯一的编号,称为码点,其范围从U+0000开始。例如,表示空字符的...
需要注意的是,当使用ASCII码扩展(Extended ASCII)时,8位的ASCII码可以表示256个不同的字符,这通常用于包含更多语言或特殊符号的字符集,如拉丁语系的附加字符。 总的来说,ASCII码是计算机科学中不可或缺的...
- **UTF-8**:兼容ASCII码,并且能够支持几乎所有的字符集,是目前互联网上使用最广泛的字符编码方式。 - **UTF-16**:同样兼容ASCII码,但在某些情况下会占用更多空间。 #### 七、总结 ASCII码作为计算机科学中的...
百度网盘是目前中国最流行的云存储服务之一,提供了文件存储、分享、备份等功能,用户可以非常方便地通过网络将文件上传到网盘,并通过分享链接的方式分发给他人。 标签中的“数据集”和“k12”是两个与信息相关的...
3. **OpenType字体**:由Microsoft和Adobe共同推出,比TrueType更先进,支持更多的字符集和字形变体,也支持高级排版功能,如 ligatures(连字)和 contextual alternates(上下文替换)。 4. **字体设计**:字体...
例如,使用`InputStreamReader`和`OutputStreamWriter`可以指定字符集进行读写操作。此外,对于HTML转PDF这样的任务,可能需要用到如iText、PDFBox等库,它们都提供了处理编码的API。 总的来说,文件编码是软件开发...
字符识别则可采用支持向量机(SVM)、神经网络或深度学习模型如卷积神经网络(CNN),训练模型识别特定字符集。 6. 结论 本课程设计通过对数字图像处理技术的运用,实现了对友好环境下车牌的识别。尽管实验环境...
a、支持中文,具体可以在TppStMaxiCodeBarcode.GenerateBarcodeBitmap_QRCode这里设置QRCode.Encoding来支持具体的字符集。 QQ扫码支持中文,但微信目前却不支持。 b、现在二维码的大小是固定,信息容量不大,如果...
静态网页技术是网页设计和开发的基础,而JavaScript是目前广泛使用的网页脚本语言,用于增强网页的交互性和动态功能。 部分内容看似是一些乱码或OCR扫描识别错误的文本。根据描述中提到的OCR(光学字符识别)技术,...
在IT行业中,编码转换是一个非常重要的主题,尤其是在处理不同字符集和编码标准的场景下。这个"完整版新编码转换大全模块+应用例程()"压缩包文件似乎提供了一个全面的解决方案,涵盖了各种编码转换的工具和示例代码...
总的来说,这款“utf8 gbk big5 多编码批量转换软件”是处理跨编码问题的有效工具,尤其对于需要频繁处理中文字符集的IT专业人士来说,能够节省大量时间和精力,提高工作效率。不过,使用时也要注意文件的兼容性和...
由于字符集包含64个字符,每个字符代表6位二进制数,所以编码后的数据长度大约是原数据的4/3倍,不足位数用'='进行填充。 3. **HASH算法**: - HASH算法,也称为散列算法,它的主要特点是将任意长度的信息转化为...