论坛首页 入门技术论坛

字符编码测验--cpdetector

浏览 6215 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-09-08  
最近一直为编码所困扰,由于无法知道上传的文件的编码格式,导致转码时报错,无意中发布一个开源组件,可以根据流查出文件的编码,下面上传相关的jar包和例子,希大家多多支持!
/*------------------------------------------------------------------------ 
  detector是探测器,它把探测任务交给具体的探测实现类的实例完成。 
  cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法 
  加进来,如ParsingDetector、 JChardetFacade、ASCIIDetector、UnicodeDetector。   
  detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的 
  字符集编码。 
--------------------------------------------------------------------------*/ 
CodepageDetectorProxy detector =   CodepageDetectorProxy.getInstance();  
/*------------------------------------------------------------------------- 
  ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于 
  指示是否显示探测过程的详细信息,为false不显示。 
---------------------------------------------------------------------------*/ 
detector.add(new ParsingDetector(false));   
/*-------------------------------------------------------------------------- 
  JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码 
  测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以 
  再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。 
---------------------------------------------------------------------------*/   
detector.add(JChardetFacade.getInstance());  
//ASCIIDetector用于ASCII编码测定  
detector.add(ASCIIDetector.getInstance());  
//UnicodeDetector用于Unicode家族编码的测定  
detector.add(UnicodeDetector.getInstance());  
java.nio.charset.Charset charset = null;  
File f=new File("E://specialCar//test.csv");  
try {  
      charset = detector.detectCodepage(new BufferedInputStream(new FileInputStream(f)),100);  
} catch (Exception ex) {ex.printStackTrace();}  
if(charset!=null){  
     System.out.println(f.getName()+"编码是:"+charset.name());  
}else{ 
    System.out.println(f.getName()+"未知"); 
}
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics