`
fireinjava
  • 浏览: 480109 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

判断文件是否UTF-8编码

    博客分类:
  • Java
 
阅读更多

 

 

判断文件是否UTF-8编码:

对于UTF-8编码格式的文本文件,其前3个字节的值就是-17、-69、-65

 

			InputStream fis = fileItem.getInputStream();
			byte[] buf = new byte[fis.available()];
			fis.read(buf);
			fis.close();
			if (buf[0] == -17 && buf[1] == -69 && buf[2] == -65) {//编码为UTF-8
				String content = new String(buf,"UTF-8");
				//...TODO
			} else {
				throw new BIException("请导入UTF-8编码的文件");
			}

 

 

参考:http://blog.csdn.net/wangpeijiang/article/details/5458033

 

分享到:
评论

相关推荐

    判断文本文件是否为UTF-8编码

    本资源主要关注如何判断一个文本文件是否采用UTF-8编码。 在Windows系统中,比如Windows 7旗舰版,我们经常使用Notepad.exe(记事本)来查看和编辑文本文件。在编程环境中,有时候我们需要编写代码来检查文件的编码...

    判断文件是否为utf-8的编码格式

    一个判断文件为utf-8的java类,自己用有限状态机实现的,很好用的。

    易语言判断UTF-8字符

    在易语言中,有时候我们需要判断一个字符串是否是UTF-8编码的,这就需要用到"IsTextUTF8"这样的函数。 `IsTextUTF8`函数是易语言中用于检测字符串是否符合UTF-8编码规范的函数。这个函数会检查字符串的每个字节,...

    UTF-8或者GBK文本格式判断

    Recognize类判定指定文本文件为UTF-8还是GBK编码格式。

    UTF-8 编码转换工具

    UTF-8编码是一种广泛使用的字符编码标准,尤其在网络和计算机系统中扮演着核心角色。它能够表示Unicode字符集中的所有字符,包括世界各地的各种语言。UTF-8的优势在于其兼容性和效率,不同平台和语言通常都能无缝...

    GBK编码转换和UTF-8编码转换模块源码

    3. 对于UTF-8编码的字符串,由于UTF-8本身就是变长编码,每个Unicode字符可能对应1到4个字节,所以转换时需要逐字节处理,并根据字节流判断对应的Unicode字符,然后进行URL编码。 4. 返回URL编码后的字符串。 在...

    utf-8编码转换工具.zip

    该程序支持.c .h .cpp .hpp .bat .java等6种格式的文件编码转换,如果需要添加其他格式的文件,直接修改suffix的条件判断处的语句即可,压缩包中提供exe程序和python写的源码

    utf-8码转换器(转换成utf-8码)

    - 接收输入:用户可以通过文本框或者文件选择功能输入或导入非UTF-8编码的文本。 - 分析编码:程序需要检测输入文本的原始编码,这通常通过检查字节序列的特定模式来判断,如BOM(Byte Order Mark)标记。 - 转换...

    c++ UTF-8 UTF-16转换

    在编程领域,尤其是在涉及到字符编码的时候,理解和操作UTF-8和UTF-16之间的转换是一项基本技能。UTF-8和UTF-16是两种广泛使用的Unicode编码格式,它们各自有其特性和应用场景。本文将深入探讨如何利用C++来实现这两...

    通过系统api转化UTF-8编码的VB模块源码

    在VB(Visual Basic)编程环境中,经常需要处理各种...`cUTF8.cls`文件提供了这样的功能,使得VB程序员能够在项目中方便地处理UTF-8编码的文本。在实际应用中,可以根据需要扩展这个模块,增加更多编码类型的转换功能。

    VB6.0 UTF-8转换GB2312函数

    在VB6.0编程环境中,有时我们需要处理不同字符编码之间的转换,例如将UTF-8编码的字符串转换为GB2312编码。UTF-8是一种广泛使用的Unicode编码,而GB2312是中国大陆常用的简体中文字符集,主要用于早期的计算机系统。...

    Python使用pandas读取csv文件支持utf-8和gbk编码自动识别

    Python 简单使用 pandas 读取excel 的 csv文件处理,支持utf-8和gbk编码自动识别。

    易语言判断UTF-8字符源码

    5. 文件读写:如果UTF-8字符存储在文件中,需要使用易语言的文件操作命令,如“打开文件”、“读取文本文件”和“写入文本文件”,来读取或写入UTF-8编码的文本。 6. 源码分享:描述中提到了“@易语言源码分享站”...

    易语言-判断文本文件是否为UTF-8编码

    本示例着重讲解如何判断一个文本文件是否采用UTF-8编码。 UTF-8是Unicode的一种变体,它广泛用于网络和计算机系统,因为它能表示Unicode中的所有字符,并且与ASCII兼容。UTF-8的特性在于每个字符可以由1到4个字节...

    UNICODE与UTF-8转换

    **二、UTF-8编码** UTF-8是一种变长的Unicode转换格式,它将UNICODE码点转换为可变长度的字节序列。UTF-8的优势在于其对ASCII字符的兼容性:英文和其他使用ASCII字符的语言,如大部分编程语言,只需要1个字节表示,...

    UTF-8与GBK

    可以通过字节的特定模式来判断,例如UTF-8的多字节字符以10开头,而GBK的每个字节都不是。 2. 字符解码:对于UTF-8,需要识别出字符的字节数,并正确解析出Unicode码点;对于GBK,直接按双字节解析即可。 3. 转换:...

    CStdioFileEx(支持ANSI、UNICODE、UNICODE big endian、UTF-8编码的文本读取

    (包括ANSI、UNICODE、UNICODE big endian、UTF-8)格式的文本文件 */ //核心算法:CStdioFileEx继承自CStdioFile, 覆盖CStdioFile的 BOOL ReadString(CString& rString)方法, // 根据不同文件编码特征,寻找文件...

    自动检测汉字GB18030编码与UTF-8编码

    想到如下特征来识别汉字: ... 如果第1位是0就不需要判断的,一定是ASCII字符。 2. 如果第1位是1开头的,第2位是0开头的,一定是GB编码。 3. 如果第1位是非1110开头的,则一定是GB编码。 4. 多做几个汉字判断。

    c语言gbk、utf8转换编码表及函数

    本篇将详细介绍GBK与UTF-8编码的区别,以及如何在C语言中进行这两种编码的转换。 1. **GBK编码** - GBK是中国大陆广泛使用的汉字编码标准,它是GB2312的扩展,包含了更多的汉字和符号,总共约2万多个汉字。 - GBK...

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    首先,对于简单的UTF-8编码格式判断,我们可以直接读取文件的前三个字节来确定。UTF-8编码的文件头通常由特定的字节序列标识,即字节值为-17(0xEF)、-69(0xBB)和-65(0xBF)。以下是一个简单的Java代码示例: `...

Global site tag (gtag.js) - Google Analytics