`
shangxinlei
  • 浏览: 7943 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

字符编码测验--cpdetector

阅读更多
最近一直为编码所困扰,由于无法知道上传的文件的编码格式,导致转码时报错,无意中发布一个开源组件,可以根据流查出文件的编码,下面上传相关的jar包和例子,希大家多多支持!
/*------------------------------------------------------------------------ 
  detector是探测器,它把探测任务交给具体的探测实现类的实例完成。 
  cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法 
  加进来,如ParsingDetector、 JChardetFacade、ASCIIDetector、UnicodeDetector。   
  detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的 
  字符集编码。 
--------------------------------------------------------------------------*/ 
CodepageDetectorProxy detector =   CodepageDetectorProxy.getInstance();  
/*------------------------------------------------------------------------- 
  ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于 
  指示是否显示探测过程的详细信息,为false不显示。 
---------------------------------------------------------------------------*/ 
detector.add(new ParsingDetector(false));   
/*-------------------------------------------------------------------------- 
  JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码 
  测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以 
  再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。 
---------------------------------------------------------------------------*/   
detector.add(JChardetFacade.getInstance());  
//ASCIIDetector用于ASCII编码测定  
detector.add(ASCIIDetector.getInstance());  
//UnicodeDetector用于Unicode家族编码的测定  
detector.add(UnicodeDetector.getInstance());  
java.nio.charset.Charset charset = null;  
File f=new File("E://specialCar//test.csv");  
try {  
      charset = detector.detectCodepage(new BufferedInputStream(new FileInputStream(f)),100);  
} catch (Exception ex) {ex.printStackTrace();}  
if(charset!=null){  
     System.out.println(f.getName()+"编码是:"+charset.name());  
}else{ 
    System.out.println(f.getName()+"未知"); 
}
分享到:
评论
1 楼 Bactryki 2013-04-26  
很有用!帮了大忙了1

相关推荐

    cpdetector-1.0.4.jar

    cpdetector-1.0.4.jar

    cpdetector-1.0.7jar包

    没有积分的同学可以在maven repository中下载,cpdetector内置一些常用的探测实现类

    获取zip文件编码格式 cpdetector.zip

    `cpdetector-1.08.jar` 是Character Profile Detector的实现,它是一个Java库,专门用于检测文本文件的字符编码。这个库提供了多种算法和策略,可以分析文件中的字节序列并推测出最有可能的字符集。它通常会比较不同...

    获取文件编码方式的两种方式(1.cpdetector第三方jar包,包含源码elipse项目;2.EncodingDetect.java工具类)

    `cpdetector`是一个开源的Java库,它提供了一种方便的方式来检测文件或流的字符编码。这个库包括了多种字符集识别算法,如Unicode的BOM标记检测、频度分析等。使用`cpdetector`,你可以轻松地集成到Eclipse项目中,...

    java识别文件编码cpdetector_1.0.10.jar,chardet.jar,antlr-2.7.7.jar

    `cpdetector_1.0.10.jar`是CodePageDetector项目的一个版本,它提供了一种方便的方式来识别文件或流的字符编码。这个库包含了多种编码检测算法,能够检测出包括ASCII、UTF-8、ISO-8859-x、GB2312、GBK、BIG5等在内的...

    解决java读取文件乱码--cpdetector 1.0.5

    CharsetPrinter解决windows和Linux读取文件乱码,使用代码如下: public static String guessEncoding(String filename) { try { CharsetPrinter charsetPrinter = new CharsetPrinter(); String encode = ...

    cpdetector_1.0.10.zip

    mvn install:install-file -DgroupId=info.monitorenter -DartifactId=cpdetector -Dversion=1.0.10 -Dpackaging=jar -Dfile=/jar文件所在的路径/cpdetector_1.0.10.jar

    cpdetector-1.0.7.jar

    <groupId>info.monitorenter.cpdetector <artifactId>cpdetector <version>1.0.7 </dependency>

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    本文将探讨如何使用Java进行文件编码格式的识别,主要介绍两种方法:一种是简单的UTF-8判断,另一种是使用开源库cpdetector。 首先,对于简单的UTF-8编码格式判断,我们可以直接读取文件的前三个字节来确定。UTF-8...

    cpdetector检测文件的编码

    这包括但不限于ASCII、UTF-8、GBK、Big5等常见的字符编码格式。通过对文件内容进行分析,它能够识别出最可能的编码方式,确保数据的准确性和一致性。 使用"cpdetector"通常涉及到以下几个步骤: 1. 引入库:首先,...

    使用cpdetector 三方库读取文件编码

    "使用cpdetector 三方库读取文件编码"的主题聚焦于如何利用cpdetector这个第三方库来检测和识别不同文件的字符编码。cpdetector是Java编程语言中的一个实用工具,它结合了jchardet库,提供了一种高效、准确的方式来...

    cpdetector-1.0.4.jar 针对info.monitorenter.cpdetector.io.*包

    在网上找了好久终于找到了,现在发出来让大家下载使用,主要是包info.monitorenter.cpdetector.io.*

    java更改文件的编码jar包:cpdetector

    `cpdetector`是一个Java库,专门用于检测文件或字节流的字符编码。这个库可以帮助开发者识别和处理不同编码格式的文件,确保数据正确无误地被读取和写入。 `cpdetector`库的主要功能包括: 1. **编码检测**:它提供...

    java文件字符编码集判断依赖.zip

    通用的文件字符编码集判断需要借助第三方包cpdetector.jar 使用Cpdetector jar包检测文件编码需要依赖antlr-2.7.7.jar、chardet-1.0.jar、jargs-1.0.jar三个jar包 本下载资源一站式全包含,并附带亲测有效的片段...

    java判断文件编码格式 三方工具包 cpdetector_1.0.10.jar

    `cpdetector`库包含了多种不同的检测策略,可以识别多种常见的字符编码,如UTF-8、GBK、ISO-8859-1等。它通过分析文件的字节序列,根据特定的编码规则和特征来推断文件的编码格式。这种自动化检测方法极大地简化了...

    Java cpdetector获取文件编码格式所需Jar包

    Java的`cpdetector`库是一个实用工具,用于检测文件或流的字符编码。这个库特别有用,当你需要处理不同来源的文本数据,不确定其原始编码时。`cpdetector`提供了多种编码识别算法,可以帮助程序自动识别文件的正确...

    cpdetector_1.0.10自动识别网页文件编码

    【标题】"cpdetector_1.0.10自动识别网页文件编码" 是一个软件工具,主要用于检测和识别网页文件的字符编码。这个版本是1.0.10,表明这是一个经过多次迭代优化的成熟软件。 【描述】"cpdetector自动识别网页文件...

    判断编码格式.rar antlr.jar chardet.jar cpdetector_1.0.5.jar

    它包含的三个文件“antlr.jar”,“chardet.jar”,以及“cpdetector_1.0.5.jar”都是与字符编码检测相关的Java库。 1. **ANTLR.jar**: ANTLR (ANother Tool for Language Recognition) 是一个强大的解析器生成器,...

    网页编码解析包(chardet.jar,cpdetector_1.0.7.jar)

    总之,`chardet.jar`和`cpdetector_1.0.7.jar`是处理网页编码问题的有力工具,它们通过统计和模式匹配技术,能够有效地识别各种字符编码,确保在处理网络数据时不会因为编码问题导致乱码。在Java开发中,这两个库...

    antlr chardet cpdetector jar包

    Chardet(Character Encoding Detector)是一个开源库,主要用于自动检测输入数据的字符编码。它通过分析字节序列模式来推断文本的编码方式,这在处理未知来源或缺少明确编码信息的文本时非常有用。Chardet-1.0.jar...

Global site tag (gtag.js) - Google Analytics