`
andyny2006
  • 浏览: 35533 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

利用第三方开源包cpdetector获取文件编码格式

阅读更多
/**
  * 利用第三方开源包cpdetector获取文件编码格式.
  *
  * @param filePath
  * @return
  */
public static String getFileEncode(String filePath) {
  /**
   * <pre>
   * 1、cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法加进来,如:ParsingDetector、 JChardetFacade、ASCIIDetector、UnicodeDetector.
   * 2、detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则.
   * 3、cpDetector是基于统计学原理的,不保证完全正确.
   * </pre>
   */
  CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
  detector.add(new ParsingDetector(false));
  detector.add(JChardetFacade.getInstance());// 需要第三方JAR包:antlr.jar、chardet.jar.
  detector.add(ASCIIDetector.getInstance());
  detector.add(UnicodeDetector.getInstance());
  Charset charset = null;
  File file = new File(filePath);
  try {
   charset = detector.detectCodepage(file.toURI().toURL());
  } catch (Exception e) {
   log.error(e, e);
  }

  String charsetName = Const.GBK;
  if (charset != null) {
   if (charset.name().equals("US-ASCII")) {
    charsetName = Const.ISO_8859_1;
   } else if (charset.name().startsWith("UTF")) {
    charsetName = charset.name();// 例如:UTF-8,UTF-16BE.
   }
  }
  return charsetName;
}



分享到:
评论

相关推荐

    获取文件编码方式的两种方式(1.cpdetector第三方jar包,包含源码elipse项目;2.EncodingDetect.java工具类)

    本篇文章将详细介绍两种常用的方法来检测Java程序中的文件编码:一是使用`cpdetector`第三方库,二是通过自定义的`EncodingDetect.java`工具类。 1. **cpdetector第三方库** `cpdetector`是一个开源的Java库,它...

    JAVA获取文件编码格式

    在这种情况下,我们可以利用第三方开源库来帮助我们完成这项工作。描述中提到了一个叫做"cpdetector"的工具,这是一个专门用于检测文件编码的开源库。 **cpdetector** 是由Java编写的一个库,它提供了多种方法来...

    使用cpdetector 三方库读取文件编码

    "使用cpdetector 三方库读取文件编码"的主题聚焦于如何利用cpdetector这个第三方库来检测和识别不同文件的字符编码。cpdetector是Java编程语言中的一个实用工具,它结合了jchardet库,提供了一种高效、准确的方式来...

    antlr/chardet/cpdetector.jar

    * 利用第三方开源包cpdetector获取文件编码格式. * * @param filePath * @return */ public static String getFileEncode(String filePath) { /** * * 1、cpDetector内置了一些常用的探测实现类,这些探测...

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    当需要处理各种未知编码格式的文件时,可以借助第三方库cpdetector。 cpdetector是一个轻量级的开源项目,它的大小大约为500KB,提供了一种基于概率统计的算法来检测文件的编码格式。该项目包含了多种探测器,如...

    java判断文件编码或文本流编码的方法宣贯.pdf

    总的来说,Java中判断文件或文本流编码的方法主要包括直接读取文件头字节进行比较和使用第三方库进行复杂检测。前者适用于有限的编码格式,后者则提供了更全面的解决方案,适用于各种场景,尤其是处理用户上传或不可...

    Java判定文件编码或文本流编码的方法[文].pdf

    总的来说,Java中判断文件编码的方法包括简单的字节匹配和使用第三方库进行智能检测。在实际开发中,根据项目的具体需求,可以选择合适的方法来确保正确处理各种编码的文本文件,避免乱码问题。

    java文档编码开发包

    这个开发类库由第三方提供,这意味着它可能是一个开源项目,旨在帮助开发者更方便地检测和处理各种编码格式。 在Java中,字符编码是一个基础但重要的概念,因为不同的文件和数据流可能会使用不同的编码标准,如...

    java自动根据文件内容的编码来读取避免乱码

    为了解决这个问题,我们可以利用第三方库,如`CPDetector`,它可以帮助我们自动检测文件的编码并据此进行读取。 `CPDetector`是一个开源的Java库,它提供了多种字符集检测算法,可以有效地识别文件的编码类型。这个...

Global site tag (gtag.js) - Google Analytics