最近一直为编码所困扰,由于无法知道上传的文件的编码格式,导致转码时报错,无意中发布一个开源组件,可以根据流查出文件的编码,下面上传相关的jar包和例子,希大家多多支持!
/*------------------------------------------------------------------------
detector是探测器,它把探测任务交给具体的探测实现类的实例完成。
cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法
加进来,如ParsingDetector、 JChardetFacade、ASCIIDetector、UnicodeDetector。
detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的
字符集编码。
--------------------------------------------------------------------------*/
CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
/*-------------------------------------------------------------------------
ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
指示是否显示探测过程的详细信息,为false不显示。
---------------------------------------------------------------------------*/
detector.add(new ParsingDetector(false));
/*--------------------------------------------------------------------------
JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码
测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以
再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
---------------------------------------------------------------------------*/
detector.add(JChardetFacade.getInstance());
//ASCIIDetector用于ASCII编码测定
detector.add(ASCIIDetector.getInstance());
//UnicodeDetector用于Unicode家族编码的测定
detector.add(UnicodeDetector.getInstance());
java.nio.charset.Charset charset = null;
File f=new File("E://specialCar//test.csv");
try {
charset = detector.detectCodepage(new BufferedInputStream(new FileInputStream(f)),100);
} catch (Exception ex) {ex.printStackTrace();}
if(charset!=null){
System.out.println(f.getName()+"编码是:"+charset.name());
}else{
System.out.println(f.getName()+"未知");
}
分享到:
相关推荐
cpdetector-1.0.4.jar
没有积分的同学可以在maven repository中下载,cpdetector内置一些常用的探测实现类
"使用cpdetector 三方库读取文件编码"的主题聚焦于如何利用cpdetector这个第三方库来检测和识别不同文件的字符编码。cpdetector是Java编程语言中的一个实用工具,它结合了jchardet库,提供了一种高效、准确的方式来...
`cpdetector-1.08.jar` 是Character Profile Detector的实现,它是一个Java库,专门用于检测文本文件的字符编码。这个库提供了多种算法和策略,可以分析文件中的字节序列并推测出最有可能的字符集。它通常会比较不同...
`cpdetector`是一个开源的Java库,它提供了一种方便的方式来检测文件或流的字符编码。这个库包括了多种字符集识别算法,如Unicode的BOM标记检测、频度分析等。使用`cpdetector`,你可以轻松地集成到Eclipse项目中,...
`cpdetector_1.0.10.jar`是CodePageDetector项目的一个版本,它提供了一种方便的方式来识别文件或流的字符编码。这个库包含了多种编码检测算法,能够检测出包括ASCII、UTF-8、ISO-8859-x、GB2312、GBK、BIG5等在内的...
CharsetPrinter解决windows和Linux读取文件乱码,使用代码如下: public static String guessEncoding(String filename) { try { CharsetPrinter charsetPrinter = new CharsetPrinter(); String encode = ...
mvn install:install-file -DgroupId=info.monitorenter -DartifactId=cpdetector -Dversion=1.0.10 -Dpackaging=jar -Dfile=/jar文件所在的路径/cpdetector_1.0.10.jar
<groupId>info.monitorenter.cpdetector <artifactId>cpdetector <version>1.0.7 </dependency>
这包括但不限于ASCII、UTF-8、GBK、Big5等常见的字符编码格式。通过对文件内容进行分析,它能够识别出最可能的编码方式,确保数据的准确性和一致性。 使用"cpdetector"通常涉及到以下几个步骤: 1. 引入库:首先,...
本文将探讨如何使用Java进行文件编码格式的识别,主要介绍两种方法:一种是简单的UTF-8判断,另一种是使用开源库cpdetector。 首先,对于简单的UTF-8编码格式判断,我们可以直接读取文件的前三个字节来确定。UTF-8...
在网上找了好久终于找到了,现在发出来让大家下载使用,主要是包info.monitorenter.cpdetector.io.*
通用的文件字符编码集判断需要借助第三方包cpdetector.jar 使用Cpdetector jar包检测文件编码需要依赖antlr-2.7.7.jar、chardet-1.0.jar、jargs-1.0.jar三个jar包 本下载资源一站式全包含,并附带亲测有效的片段...
`cpdetector`库包含了多种不同的检测策略,可以识别多种常见的字符编码,如UTF-8、GBK、ISO-8859-1等。它通过分析文件的字节序列,根据特定的编码规则和特征来推断文件的编码格式。这种自动化检测方法极大地简化了...
`cpdetector`是一个Java库,专门用于检测文件或字节流的字符编码。这个库可以帮助开发者识别和处理不同编码格式的文件,确保数据正确无误地被读取和写入。 `cpdetector`库的主要功能包括: 1. **编码检测**:它提供...
Java的`cpdetector`库是一个实用工具,用于检测文件或流的字符编码。这个库特别有用,当你需要处理不同来源的文本数据,不确定其原始编码时。`cpdetector`提供了多种编码识别算法,可以帮助程序自动识别文件的正确...
【标题】"cpdetector_1.0.10自动识别网页文件编码" 是一个软件工具,主要用于检测和识别网页文件的字符编码。这个版本是1.0.10,表明这是一个经过多次迭代优化的成熟软件。 【描述】"cpdetector自动识别网页文件...
它包含的三个文件“antlr.jar”,“chardet.jar”,以及“cpdetector_1.0.5.jar”都是与字符编码检测相关的Java库。 1. **ANTLR.jar**: ANTLR (ANother Tool for Language Recognition) 是一个强大的解析器生成器,...
总之,`chardet.jar`和`cpdetector_1.0.7.jar`是处理网页编码问题的有力工具,它们通过统计和模式匹配技术,能够有效地识别各种字符编码,确保在处理网络数据时不会因为编码问题导致乱码。在Java开发中,这两个库...
Chardet(Character Encoding Detector)是一个开源库,主要用于自动检测输入数据的字符编码。它通过分析字节序列模式来推断文本的编码方式,这在处理未知来源或缺少明确编码信息的文本时非常有用。Chardet-1.0.jar...