`
herestay
  • 浏览: 35966 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

JAVA读取不同编码格式的TXT文件

阅读更多

最近做一个全文检索的功能,要求在用户上传附件时获取其内容存入数据库,CSV,EXCEL,WORD,PPT都搞定了。剩余一个最简单的TXT文档,开始忽略了它还有不同编码,导致一些编码格式的文本乱码。兼容写法如下,一个判断文件头的方法搞定所有。




    privateString getCharset(String fileName) throws IOException{
      
          BufferedInputStream bin = new BufferedInputStream(newFileInputStream(fileName));  
          int p = (bin.read() << 8) +bin.read();  
          
          String code = null;  
          
          switch (p) {  
              case 0xefbb:  
                  code = "UTF-8";  
                  break;  
              case 0xfffe:  
                  code = "Unicode";  
                  break;  
              case 0xfeff:  
                  code = "UTF-16BE";  
                  break;  
              default:  
                  code = "GBK";  
          }  
          return code;
    }
    
    
    publicString getTextFromText(String filePath){
      
         try {
            InputStreamReader isr = new InputStreamReader(newFileInputStream(filePath),getCharset(filePath));
            BufferedReader br = newBufferedReader(isr);
            
             StringBuffer sb = new StringBuffer();  
             String temp = null;   
             while((temp = br.readLine()) != null){  
                 sb.append(temp);   
             }   
             br.close();       
             return sb.toString();   
         } catch (FileNotFoundException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
            
         }catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
         }   
         return null;
    }



分享到:
评论

相关推荐

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    在Java编程中,判断文件编码格式是一项常见的任务,特别是在处理包含多国语言或者用户自定义内容的文件时。本文将探讨如何使用Java进行文件编码格式的识别,主要介绍两种方法:一种是简单的UTF-8判断,另一种是使用...

    JAVA获取文件编码格式

    标题提到的“JAVA获取文件编码格式”是一项常见的任务,特别是在处理来自不同来源的文本文件时。在这种情况下,我们可以利用第三方开源库来帮助我们完成这项工作。描述中提到了一个叫做"cpdetector"的工具,这是一个...

    获取文件编码格式(纯JAVA代码,绝对对你有用)

    java 识别文件的编码格式 读取文件的编码 utf-8 gbk gb2312 java 编码 java 获取文件编码格式 java 乱码查找

    java验证文件真实格式和编码格式工具类

    `java验证文件真实格式和编码格式工具类` 提供的功能对于处理不同来源的文件至关重要,尤其是在处理用户上传的文件或跨平台数据交换时。通过`VerifyFileType.java` 和 `VerifyFileEncoder.java`,开发者可以确保正确...

    用java修改文件的编码

    在Java编程语言中,修改文件编码是一项常见的任务,特别是在处理不同源代码或数据文件时。本文将深入探讨如何使用Java来实现这一功能,主要关注以下几个关键知识点: 1. **字符编码的理解**:字符编码是将字符与二...

    Java 获得文件编码格式

    在Java编程语言中,获取文件编码格式是一项重要的任务,特别是在处理不同来源的文本文件时。文件的编码格式决定了字符如何在计算机中存储和显示,不同的编码如ASCII、GBK、UTF-8等支持的字符集范围不同。这篇博客...

    读取创建CSV文件并自动解析文件编码方式

    在Java中,`java.nio.charset.Charset`类用于表示字符编码,但默认情况下,Java文件读取操作通常假设文件为UTF-8编码。对于其他编码,我们需要借助第三方库如`jcconf`或`ICU4J`来检测编码。 ```java import ...

    Java读取TXT文本文件乱码解决方案.doc

    "Java读取TXT文本文件乱码解决方案" Java 读取 TXT 文本文件乱码解决方案中,主要讨论的是在 Java 中读取 TXT 文本文件时出现乱码的问题,并提供了解决方案。 首先,文章中提供了一个简单的读取 TXT 文件的代码,...

    java判断文件编码格式 三方工具包 cpdetector_1.0.10.jar

    Java编程语言在处理文本文件时,常常需要确定文件的字符编码格式,以便正确地读取和解析文件内容。`cpdetector_1.0.10.jar` 是一个第三方工具包,专为Java开发者设计,用于检测文件的编码类型。这个工具包能够帮助...

    格式化格式化txt,读取txt文件

    在Java编程语言中,读取TXT文件是一项基本且常用的操作。通常,我们使用`BufferedReader`类配合`FileInputStream`来实现这一目标。具体步骤包括: 1. 创建一个指向TXT文件的`FileInputStream`对象。 2. 使用`...

    java识别文件编码格式

    在Java编程语言中,识别文件编码格式是一项重要的任务,特别是在处理不同来源的文本文件时。在没有第三方JAR包的情况下,我们通常需要依赖Java内置的API来实现这一功能。以下是一些关键知识点: 1. **字符编码**:...

    java 解析ASN.1 编码格式cdr话单文件例子

    本话题主要关注如何使用Java解析ASN.1编码格式的CDR(Call Detail Record)话单文件。 CDR是通信系统中记录通话、短信等通信活动详细信息的数据文件,包含诸如呼叫时间、时长、主叫号码、被叫号码、通话状态等多种...

    Java读写xml,word,xml文件(防乱码)

    不同的操作系统、软件可能使用不同的默认编码格式,这就会导致在跨平台或跨软件间读写文件时出现乱码问题。因此,在处理文件时,明确指定文件的编码格式是十分重要的。 #### 三、Java读取XML文件 对于XML文件的读取...

    Java读写.txt文件

    在Java编程中,读写文本文件(如`.txt`文件)是常见的操作,尤其是在处理配置文件时。配置文件通常以键值对(key-value pairs)的形式存储数据,便于程序访问和管理设置。以下是对这个主题的详细阐述: 1. **Java I...

    Java判断文本文件编码格式以及读取

    如果很多时候我们没有约定好文件格式,我们就难以读取文件内容,此时,我们就需要一个工具来探测所读文本的编码格式,此工具可以允许用户读取诸如utf-8,gbk,gb2312一类的文件格式。内置了一些常用的探测实现类,...

    java读取文件方法大全

    ### Java读取文件方法大全:读取File流等技术 在Java中,读取文件是一项基本且重要的操作,它可以通过多种方式实现,如字节流、字符流和基于行的读取。下面将详细介绍这些方法: #### 字节级读取:`...

    解析URL和文件的编码方式

    无论是处理URL中的特殊字符,还是确保文件内容的正确读写,都需要对各种编码格式有深入的理解。在日常工作中,使用合适的编程工具和库可以帮助我们高效地处理这些问题,提高代码的健壮性和可维护性。因此,对于IT...

    Java判断文件的编码

    在Java开发中,经常会遇到需要处理不同编码格式的文件的情况。为了确保程序能够正确解析文件内容,必须先判断文件的编码格式。本文将详细介绍如何使用Java来判断文件是否为UTF-8或GBK编码,并提供一个示例代码。 ##...

    java 文件编码转换

    标题"java 文件编码转换"指的是使用Java来解决文件编码问题,而描述中提到的"提供一个jar包和一个java文件"则暗示了我们可以通过这两个文件实现这个功能。 首先,`chardet.jar`可能是一个字符集检测库,用于自动...

Global site tag (gtag.js) - Google Analytics