`
MauerSu
  • 浏览: 514536 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

如何判断一个文件或一个bytes是 utf?

 
阅读更多
源:http://setting.iteye.com/blog/786887
评:


如何判断一个文件或一个bytes是 utf?
    JSON text SHALL be encoded in Unicode.  The default encoding is
   UTF-8.

   Since the first two characters of a JSON text will always be ASCII
   characters [RFC0020], it is possible to determine whether an octet
   stream is UTF-8, UTF-16 (BE or LE), or UTF-32 (BE or LE) by looking
   at the pattern of nulls in the first four octets.

           00 00 00 xx  UTF-32BE
           00 xx 00 xx  UTF-16BE
           xx 00 00 00  UTF-32LE
           xx 00 xx 00  UTF-16LE
           xx xx xx xx  UTF-8
rfc4627即json标准规范中,给了一个简单的判断方法。
分享到:
评论

相关推荐

    Java判断文件的编码

    本文将详细介绍如何使用Java来判断文件是否为UTF-8或GBK编码,并提供一个示例代码。 #### 文件编码基础知识 1. **UTF-8**:一种可变长度的字符编码,适用于所有Unicode字符,它通过使用一种巧妙的方案来表示各种...

    utf-8和GBK编码文件互相转换

    在IT领域,字符编码是一个非常重要的概念,尤其是在处理文本数据时。UTF-8和GBK是两种常见的字符编码标准,它们各自有不同的特点和应用场景。本文将详细介绍UTF-8和GBK编码,以及如何在.NET环境中进行这两种编码文件...

    c++ UTF-8 UTF-16转换

    UTF-8是一种变长的字符编码,它使用1到4个字节来表示一个Unicode字符,其中ASCII字符(0-127)只需要1个字节。UTF-16则通常使用2个字节,对于大部分的Unicode字符,但对超出基本多文种平面(BMP)的字符,如表情符号...

    VB6.0 UTF-8转换GB2312函数

    以下是一个简单的VB6.0函数示例,用于将UTF-8编码的字符串转换为GB2312编码: ```vb Function Utf8ToGb2312(ByVal utf8Str As String) As String Dim utf8Bytes() As Byte Dim gb2312Bytes() As Byte Dim i As ...

    C#实现获取文本文件的编码的一个类(区分GB2312和UTF8)

    本篇将介绍如何使用C#编写一个类来检测文本文件的编码,特别是区分GB2312(简体中文GBK编码)和UTF8这两种常见的编码格式。 首先,我们要知道不同编码类型的标识。UTF8编码有两种形式,一种是带有字节顺序标记(BOM...

    utf8与string的相互转换

    UTF-8的特点是它使用1到4个字节来编码Unicode字符,其中ASCII字符(如英文字符)只需要一个字节。这种设计使得UTF-8与ASCII兼容,且在大多数情况下,可以更有效地处理文本,尤其是在处理英文文本时。对于非ASCII字符...

    gb2312,utf-8,utf-8-bom等编码格式的互相转换

    UTF-8-BOM,全称是“UTF-8 Byte Order Mark”,它在UTF-8编码的文件开头添加了一个特殊的字节序列(0xEF, 0xBB, 0xBF)来标识该文件使用的是UTF-8编码。BOM主要用于帮助软件识别文件的编码,但并非所有UTF-8编码的...

    C#写的 GBK GB2312 UTF-8转换

    以下是一个简单的C#代码示例,演示如何将GBK编码的字符串转换为UTF-8: ```csharp using System; using System.Text; class Program { static void Main() { string gbkStr = "你好,世界"; // 假设这是GBK编码...

    8 utf8-32转码

    1. UTF-8:这是一种变长的字符编码方式,它可以使用1到4个字节来表示一个Unicode字符。最常用的是ASCII字符,它们在UTF-8中只用1个字节表示。UTF-8的优势在于它与大部分现有的ASCII兼容,因此在网络传输和文件存储...

    可以从一个utf-8码转换成一个ansic 码

    1. **读取UTF-8文件**:使用`My.Computer.FileSystem.OpenTextFileReader`函数读取UTF-8编码的文件,该函数默认将文件视为ANSI编码,所以需要传递一个额外的参数`Encoding.UTF8`来指定正确的编码。 ```vb Dim ...

    解决Invalid byte 1 of 1-byte UTF-8 sequence

    描述中提到的“Invalid byte 1 of 1-byte UTF-8 sequence”错误提示意味着在尝试解码一个UTF-8编码的字节序列时,遇到了一个无效的字节。这通常是因为文件或数据流被错误地识别为不同的字符集,如GBK,导致解码失败...

    java程序判断文件编码的类型

    为了准确判断一个文件的编码类型,可以通过检查文件头部的特定字节序列来进行。下面是一个示例Java代码片段,用于检测文件编码类型: ```java public static String get_charset(File file) { String charset = ...

    UTF-8编码转化(Visual Basic)

    如果希望不带BOM,创建一个`UTF8Encoding`实例时设置`GetPreamble()`为False。 4. **字符串转换**: Visual Basic中的字符串是Unicode字符串(UCS-2或UTF-16)。如果需要将这些字符串转换为UTF-8,可以使用`...

    UTF-8.rar_utf_utf gb2312_utf 转换_utf-8_utf-8解码

    例如,读取一个UTF-8编码的文本文件,可以使用以下Python代码: ```python with open('file.txt', 'rb') as file: content_bytes = file.read() content_str = content_bytes.decode('utf-8') ``` 这段代码中,`...

    GBK转UTF_8

    这里的主题是"GBK转UTF-8",这是一个关于字符编码格式转换的问题。GBK是中国大陆广泛使用的汉字编码标准,而UTF-8是Unicode的一种变长编码方式,支持全球多种语言,包括汉字,且在互联网上被普遍采用。 GBK全称为...

    winForm中进行Utf-8 及 GB2312转换

    例如,在读取一个以Utf-8编码的文本文件时,应使用以下代码: ```csharp using (StreamReader reader = new StreamReader(filePath, Encoding.UTF8)) { string content = reader.ReadToEnd(); } ``` 而在写入文件时...

    gbk和utf8转换程序

    在您提供的压缩包文件“gbk和utf8互转”中,很可能包含了一个或多个实现这种转换的C++程序。这些程序可以帮助开发者理解如何在C++中实现GBK和UTF-8之间的转换,同时展示了C++11新特性在实际编码问题中的应用。 总的...

    java代码笔记2010-06-11:java_x_文件_字节流,创建一个一个文件目录,在该目录下创建一个文件 txt, 然后写入内容进去, 再读取文件.

    在这个实例中,我们将学习如何创建一个新的文件目录,然后在该目录下创建一个文本文件(txt格式),向其中写入内容,并最后读取这些内容。 首先,创建文件目录可以使用`java.io.File`类。这个类提供了许多方法来...

    rgb2312与utf8相互转换原代码

    在实际应用中,由于历史原因,有些系统或文件使用RGB2312编码,而现代系统和网络更倾向于使用UTF-8编码。因此,进行这两种编码间的转换就显得尤为重要。转换过程中,需要对每个字符的字节序列进行解析,并按照对应...

    java判断编码方式

    在Java编程语言中,判断文件或字符串的编码方式是一个常见的需求。这主要涉及到字符集的概念,如ASCII、ISO-8859-1、UTF-8等,它们用于将二进制数据转换为人类可读的字符。在Java中,有多种方法可以用来识别或检测一...

Global site tag (gtag.js) - Google Analytics