`
limi11115
  • 浏览: 1792 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
最近访客 更多访客>>
社区版块
存档分类
最新评论

常见的编码格式

 
阅读更多
中文编码主要有以下四种:

GB2312:简体中文编码,一个汉字占用2字节,在大陆是主要编码方式。当文章/网页中包含繁体中文、日文、韩文等等时,这些内容可能无法被正确编码。

BIG5:繁体中文编码。主要在台湾地区采用。

GBK:支持简体及繁体中文,但对他国非拉丁字母语言还是有问题。

UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。为了做到国际化,网页应尽可能采用UTF-8编码。

当然,处理中文时http头也要改成UTF-8编码的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。

字符集
常用字符集分类
ASCII及其扩展字符集
作用:表语英语及西欧语言。
位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。
范围:ASCII从00到7F,扩展从00到FF。
ISO-8859-1字符集
作用:扩展ASCII,表示西欧、希腊语等。
位数:8位,
范围:从00到FF,兼容ASCII字符集。
GB2312字符集
作用:国家简体中文字符集,兼容ASCII。
位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。
范围:高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。
BIG5字符集
作用:统一繁体字编码。
位数:使用2个字节表示,表示13053个汉字。
范围:高字节从A1到F9,低字节从40到7E,A1到FE。
GBK字符集
作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312。
位数:使用2个字节表示,可表示21886个字符。
范围:高字节从81到FE,低字节从40到FE。
GB18030字符集
作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。
位数:它采用变字节表示(1 ASCII,2,4字节)。可表示27484个文字。
范围:1字节从00到7F; 2字节高字节从81到FE,低字节从40到7E和80到FE;4字节第一三字节从81到FE,第二四字节从30到39。
UCS字符集
作用:国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织,UCS-2和UNICODE兼容。
位数:它有UCS-2和UCS-4两种格式,分别是2字节和4字节。
范围:目前,UCS-4只是在UCS-2前面加了0x0000。
UNICODE字符集
作用:为世界650种语言进行统一编码,兼容ISO-8859-1。
位数:UNICODE字符集有多个编码方式,分别是UTF-8,UTF-16和UTF-32。



按所表示的文字分类

语言                             字符集                                正式名称

英语、西欧语                ASCII,ISO-8859-1        MBCS 多字节

简体中文                      GB2312                          MBCS 多字节

繁体中文                      BIG5                               MBCS 多字节

简繁中文                      GBK                                MBCS 多字节

中文、日文及朝鲜语       GB18030                        MBCS 多字节

各国语言                      UNICODE,UCS              DBCS 宽字节

BufferedReader br = null;
File f = new File(filepath);
br = new BufferedReader(new InputStreamReader(new FileInputStream(f),"UTF-8"));
分享到:
评论

相关推荐

    文件编码转换器-支持常见编码格式如UTF-8、UTF-7、Unicod、ASCII、GB2312、Big5之间的转换

    1、可以支持常见编码格式如UTF-8、UTF-7、Unicod、ASCII、GB2312、Big5之间的转换。 2、支持选取文件夹批量、文件多选、翦贴板中复制三种文件批量选取方式,能实现指量转换。 3、支持文件过滤,采用openFileDialog...

    各种主流音频编码格式介绍参考.pdf

    音频编码格式介绍 音频编码格式是数字音频处理的核心技术之一,涉及到音频信号的压缩、编码和解码等过程。本文将对各种主流音频编码格式进行介绍,包括 PCM 编码、WAVE 编码和 MP3 编码等。 PCM 编码 PCM(Pulse ...

    Java判断文件的编码

    对于UTF-8、UTF-16等常见编码格式,可以通过检查特定的字节序列来实现快速识别。 #### 示例代码分析 下面是一段用于判断文件编码的Java代码示例: ```java public static String get_charset(File file) { ...

    文件编码检测静态库vs2012工程

    在这个“文件编码检测静态库”中,可能包含了对多种常见编码格式识别的实现,如libiconv、ICU库或者自研的检测算法。 Visual Studio 2012是一个流行的C++开发环境,它提供了一套完整的IDE工具,包括编译器、调试器...

    常见红外遥控器编码与格式

    红外遥控器是一种使用红外光波传递信号的遥控...总的来说,红外遥控编码系统的设计需要综合考虑编码芯片的特性、信号调制方式、载波波形、编码格式及接收设备的功能,只有这样,才能确保红外遥控器能够稳定准确地工作。

    C# 编码自动识别 匹配文件当前编码格式

    在编程领域,尤其是在处理文本文件时,正确识别和使用文件的编码格式至关重要。C#作为.NET框架中的主要编程语言,提供了强大的支持来处理各种编码格式。本文将详细讲解"C#编码自动识别匹配文件当前编码格式"这一主题...

    修改Ubuntu中文编码格式

    由于两个系统默认使用的编码格式不同,通常情况下Windows中文版默认使用GBK编码,而Ubuntu在支持中文之后,默认使用的是UTF-8编码。如果不进行编码格式的调整,就可能出现文件中文乱码的情况。因此,如何将Ubuntu中...

    JAVA获取文件编码格式

    标题提到的“JAVA获取文件编码格式”是一项常见的任务,特别是在处理来自不同来源的文本文件时。在这种情况下,我们可以利用第三方开源库来帮助我们完成这项工作。描述中提到了一个叫做"cpdetector"的工具,这是一个...

    判断字符编码格式代码

    根据给定文件的信息,我们可以总结出以下关于“判断字符编码格式代码”的相关知识点: ### 一、背景介绍 在计算机科学领域,字符编码是将文本转换为数字表示的方法,以便于计算机存储和处理。常见的字符编码包括...

    编码 从浅入深了解编码的本质

    理解UTF-8、GBK等常见编码格式的特性及它们在不同环境下的应用,是解决字符显示问题的关键。 5. **数据结构与编码**:在计算机科学中,数据结构如数组、链表、树等,其在内存中的表示和访问都涉及到编码。编码的...

    eclipse 里设置文件的默认编码格式

    编码格式是用来表示文本字符集的规则,常见的有ASCII、GBK、UTF-8等。UTF-8是目前最常用的编码,能兼容全世界几乎所有的字符,而GBK是中国地区广泛使用的编码,尤其在处理中文字符时。在处理不同编码的文件时,如果...

    获取编码格式的工具类

    在IT行业中,编码格式是处理文本数据时至关重要的一个环节,因为不同的编码方式会影响字符的表示和解析。本文将详细探讨“获取编码格式的工具类”这一主题,它旨在帮助开发者处理不同编码格式的文本文件,如UTF-8和...

    乱码 编码方式解决 gbk ISO8859-1 utf8 编码

    本文将针对标题中的几种常见编码格式(GBK、ISO 8859-1、UTF-8)以及如何解决由这些编码方式引发的乱码问题进行深入探讨。 #### 一、编码概述 1. **GBK编码**:GBK是GB2312标准的扩展,支持简体中文,是Microsoft ...

    转换编码.rar

    描述中提到的“编码转换.rar”是一个便捷的工具,可实现UTF-8转GB2312以及其他常见编码格式的转换。这个工具的优点在于它不需要安装,属于绿色软件,意味着它不会在你的系统中留下任何冗余文件,同时保证了安全性,...

    常用的几种编码格式

    接下来,我们将详细介绍几种常见的编码格式及其特点。 #### ASCII 编码 **ASCII**(American Standard Code for Information Interchange,美国信息交换标准代码)是一种基于拉丁字母的一套电脑编码系统,最初被设计...

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    在Java编程中,判断文件编码格式是一项常见的任务,特别是在处理包含多国语言或者用户自定义内容的文件时。本文将探讨如何使用Java进行文件编码格式的识别,主要介绍两种方法:一种是简单的UTF-8判断,另一种是使用...

    工具-字符编码转换

    本文将基于“工具-字符编码转换”的主题,深入探讨字符编码的概念、常见编码格式、字符编码转换工具以及如何进行实际操作。 字符编码是计算机表示和处理文字的一种方式,它将各种字符与二进制数字对应起来。常见的...

    批量编码格式转换器

    2. **多种编码支持**:包括但不限于ASCII、UTF-8、GBK、BIG5、ISO-8859-1等常见编码,以及一些罕见或自定义的编码。 3. **预览和确认**:在转换前允许用户预览文件内容,确认编码转换的效果,防止因误操作导致的数据...

    编码格式转换工具

    常见的编码格式有ASCII、Unicode(包括UTF-8、UTF-16、UTF-32)和GBK等。ASCII主要用于英文字符,而Unicode则为全球各种语言提供了统一的编码方案,UTF-8是目前互联网上最广泛使用的编码格式。GBK是中国大陆使用的一...

Global site tag (gtag.js) - Google Analytics