如何判断一个文件或一个bytes是 utf？ - 程序人生 - ITeye博客

`

kimmking

浏览: 547836 次
性别:
来自: 中华大丈夫学院

最近访客更多访客>>

beifengbei08

zfyq124

sosoab

shijun66

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

我的资讯 ( 3)
我的论坛 ( 3531)
我的问答 ( 219)

存档分类

最新评论

lxmin0702：你好，我刚下载了您的附件，但是发现里面并没有正文所提到的Lis ...
SWT中ole/activex实践--操作word的一个例子
kkkwoai：我想请教下我有个要求是实现ppt解析为图片，用的是jac ...
Office 开发: 现实生活中的 OBA 解决方案模式
pengshan： However, the mutability of the ...
【翻译】Spring Integration参考手册-第二章
kms1989：导出pdf中文乱码怎么搞？
jsPDF介绍与兼容IE的补丁
kms1989：你好，请问不支持中文怎么解决？
jsPDF介绍与兼容IE的补丁

如何判断一个文件或一个bytes是 utf？

博客分类：

综合技术

阅读更多

如何判断一个文件或一个bytes是 utf？
JSON text SHALL be encoded in Unicode. The default encoding is
UTF-8.

   Since the first two characters of a JSON text will always be ASCII
   characters [RFC0020], it is possible to determine whether an octet
   stream is UTF-8, UTF-16 (BE or LE), or UTF-32 (BE or LE) by looking
   at the pattern of nulls in the first four octets.

           00 00 00 xx UTF-32BE
           00 xx 00 xx UTF-16BE
           xx 00 00 00 UTF-32LE
           xx 00 xx 00 UTF-16LE
           xx xx xx xx UTF-8
rfc4627即json标准规范中，给了一个简单的判断方法。

2
顶

0
踩

分享到：

哪儿有高效写入，支持windows和linux的no ... | programming：math and philosophy

2010-10-17 18:17
浏览 1742
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java判断文件的编码: 本文将详细介绍如何使用Java来判断文件是否为UTF-8或GBK编码，并提供一个示例代码。 #### 文件编码基础知识 1. **UTF-8**：一种可变长度的字符编码，适用于所有Unicode字符，它通过使用一种巧妙的方案来表示各种...

utf-8和GBK编码文件互相转换: 在IT领域，字符编码是一个非常重要的概念，尤其是在处理文本数据时。UTF-8和GBK是两种常见的字符编码标准，它们各自有不同的特点和应用场景。本文将详细介绍UTF-8和GBK编码，以及如何在.NET环境中进行这两种编码文件...

c++ UTF-8 UTF-16转换: UTF-8是一种变长的字符编码，它使用1到4个字节来表示一个Unicode字符，其中ASCII字符（0-127）只需要1个字节。UTF-16则通常使用2个字节，对于大部分的Unicode字符，但对超出基本多文种平面（BMP）的字符，如表情符号...

VB6.0 UTF-8转换GB2312函数: 以下是一个简单的VB6.0函数示例，用于将UTF-8编码的字符串转换为GB2312编码： ```vb Function Utf8ToGb2312(ByVal utf8Str As String) As String Dim utf8Bytes() As Byte Dim gb2312Bytes() As Byte Dim i As ...

C#实现获取文本文件的编码的一个类（区分GB2312和UTF8）: 本篇将介绍如何使用C#编写一个类来检测文本文件的编码，特别是区分GB2312（简体中文GBK编码）和UTF8这两种常见的编码格式。首先，我们要知道不同编码类型的标识。UTF8编码有两种形式，一种是带有字节顺序标记（BOM...

utf8与string的相互转换: UTF-8的特点是它使用1到4个字节来编码Unicode字符，其中ASCII字符（如英文字符）只需要一个字节。这种设计使得UTF-8与ASCII兼容，且在大多数情况下，可以更有效地处理文本，尤其是在处理英文文本时。对于非ASCII字符...

gb2312，utf-8，utf-8-bom等编码格式的互相转换: UTF-8-BOM，全称是“UTF-8 Byte Order Mark”，它在UTF-8编码的文件开头添加了一个特殊的字节序列（0xEF, 0xBB, 0xBF）来标识该文件使用的是UTF-8编码。BOM主要用于帮助软件识别文件的编码，但并非所有UTF-8编码的...

C#写的 GBK GB2312 UTF-8转换: 以下是一个简单的C#代码示例，演示如何将GBK编码的字符串转换为UTF-8： ```csharp using System; using System.Text; class Program { static void Main() { string gbkStr = "你好，世界"; // 假设这是GBK编码...

8 utf8-32转码: 1. UTF-8：这是一种变长的字符编码方式，它可以使用1到4个字节来表示一个Unicode字符。最常用的是ASCII字符，它们在UTF-8中只用1个字节表示。UTF-8的优势在于它与大部分现有的ASCII兼容，因此在网络传输和文件存储...

可以从一个utf-8码转换成一个ansic 码: 1. **读取UTF-8文件**：使用`My.Computer.FileSystem.OpenTextFileReader`函数读取UTF-8编码的文件，该函数默认将文件视为ANSI编码，所以需要传递一个额外的参数`Encoding.UTF8`来指定正确的编码。 ```vb Dim ...

解决Invalid byte 1 of 1-byte UTF-8 sequence: 描述中提到的“Invalid byte 1 of 1-byte UTF-8 sequence”错误提示意味着在尝试解码一个UTF-8编码的字节序列时，遇到了一个无效的字节。这通常是因为文件或数据流被错误地识别为不同的字符集，如GBK，导致解码失败...

java程序判断文件编码的类型: 为了准确判断一个文件的编码类型，可以通过检查文件头部的特定字节序列来进行。下面是一个示例Java代码片段，用于检测文件编码类型： ```java public static String get_charset(File file) { String charset = ...

UTF-8编码转化(Visual Basic): 如果希望不带BOM，创建一个`UTF8Encoding`实例时设置`GetPreamble()`为False。 4. **字符串转换**： Visual Basic中的字符串是Unicode字符串（UCS-2或UTF-16）。如果需要将这些字符串转换为UTF-8，可以使用`...

UTF-8.rar_utf_utf gb2312_utf 转换_utf-8_utf-8解码: 例如，读取一个UTF-8编码的文本文件，可以使用以下Python代码： ```python with open('file.txt', 'rb') as file: content_bytes = file.read() content_str = content_bytes.decode('utf-8') ``` 这段代码中，`...

GBK转UTF_8: 这里的主题是"GBK转UTF-8"，这是一个关于字符编码格式转换的问题。GBK是中国大陆广泛使用的汉字编码标准，而UTF-8是Unicode的一种变长编码方式，支持全球多种语言，包括汉字，且在互联网上被普遍采用。 GBK全称为...

winForm中进行Utf-8 及 GB2312转换: 例如，在读取一个以Utf-8编码的文本文件时，应使用以下代码： ```csharp using (StreamReader reader = new StreamReader(filePath, Encoding.UTF8)) { string content = reader.ReadToEnd(); } ``` 而在写入文件时...

gbk和utf8转换程序: 在您提供的压缩包文件“gbk和utf8互转”中，很可能包含了一个或多个实现这种转换的C++程序。这些程序可以帮助开发者理解如何在C++中实现GBK和UTF-8之间的转换，同时展示了C++11新特性在实际编码问题中的应用。总的...

java代码笔记2010-06-11:java_x_文件_字节流,创建一个一个文件目录，在该目录下创建一个文件 txt, 然后写入内容进去，再读取文件.: 在这个实例中，我们将学习如何创建一个新的文件目录，然后在该目录下创建一个文本文件（txt格式），向其中写入内容，并最后读取这些内容。首先，创建文件目录可以使用`java.io.File`类。这个类提供了许多方法来...

rgb2312与utf8相互转换原代码: 在实际应用中，由于历史原因，有些系统或文件使用RGB2312编码，而现代系统和网络更倾向于使用UTF-8编码。因此，进行这两种编码间的转换就显得尤为重要。转换过程中，需要对每个字符的字节序列进行解析，并按照对应...

java判断编码方式: 在Java编程语言中，判断文件或字符串的编码方式是一个常见的需求。这主要涉及到字符集的概念，如ASCII、ISO-8859-1、UTF-8等，它们用于将二进制数据转换为人类可读的字符。在Java中，有多种方法可以用来识别或检测一...

Global site tag (gtag.js) - Google Analytics