最近做一个全文检索的功能,要求在用户上传附件时获取其内容存入数据库,CSV,EXCEL,WORD,PPT都搞定了。剩余一个最简单的TXT文档,开始忽略了它还有不同编码,导致一些编码格式的文本乱码。兼容写法如下,一个判断文件头的方法搞定所有。
privateString getCharset(String fileName) throws IOException{ BufferedInputStream bin = new BufferedInputStream(newFileInputStream(fileName)); int p = (bin.read() << 8) +bin.read(); String code = null; switch (p) { case 0xefbb: code = "UTF-8"; break; case 0xfffe: code = "Unicode"; break; case 0xfeff: code = "UTF-16BE"; break; default: code = "GBK"; } return code; } publicString getTextFromText(String filePath){ try { InputStreamReader isr = new InputStreamReader(newFileInputStream(filePath),getCharset(filePath)); BufferedReader br = newBufferedReader(isr); StringBuffer sb = new StringBuffer(); String temp = null; while((temp = br.readLine()) != null){ sb.append(temp); } br.close(); return sb.toString(); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); }catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } return null; }
相关推荐
在Java编程中,判断文件编码格式是一项常见的任务,特别是在处理包含多国语言或者用户自定义内容的文件时。本文将探讨如何使用Java进行文件编码格式的识别,主要介绍两种方法:一种是简单的UTF-8判断,另一种是使用...
标题提到的“JAVA获取文件编码格式”是一项常见的任务,特别是在处理来自不同来源的文本文件时。在这种情况下,我们可以利用第三方开源库来帮助我们完成这项工作。描述中提到了一个叫做"cpdetector"的工具,这是一个...
java 识别文件的编码格式 读取文件的编码 utf-8 gbk gb2312 java 编码 java 获取文件编码格式 java 乱码查找
`java验证文件真实格式和编码格式工具类` 提供的功能对于处理不同来源的文件至关重要,尤其是在处理用户上传的文件或跨平台数据交换时。通过`VerifyFileType.java` 和 `VerifyFileEncoder.java`,开发者可以确保正确...
在Java编程语言中,修改文件编码是一项常见的任务,特别是在处理不同源代码或数据文件时。本文将深入探讨如何使用Java来实现这一功能,主要关注以下几个关键知识点: 1. **字符编码的理解**:字符编码是将字符与二...
在Java编程语言中,获取文件编码格式是一项重要的任务,特别是在处理不同来源的文本文件时。文件的编码格式决定了字符如何在计算机中存储和显示,不同的编码如ASCII、GBK、UTF-8等支持的字符集范围不同。这篇博客...
在Java中,`java.nio.charset.Charset`类用于表示字符编码,但默认情况下,Java文件读取操作通常假设文件为UTF-8编码。对于其他编码,我们需要借助第三方库如`jcconf`或`ICU4J`来检测编码。 ```java import ...
"Java读取TXT文本文件乱码解决方案" Java 读取 TXT 文本文件乱码解决方案中,主要讨论的是在 Java 中读取 TXT 文本文件时出现乱码的问题,并提供了解决方案。 首先,文章中提供了一个简单的读取 TXT 文件的代码,...
Java编程语言在处理文本文件时,常常需要确定文件的字符编码格式,以便正确地读取和解析文件内容。`cpdetector_1.0.10.jar` 是一个第三方工具包,专为Java开发者设计,用于检测文件的编码类型。这个工具包能够帮助...
在Java编程语言中,读取TXT文件是一项基本且常用的操作。通常,我们使用`BufferedReader`类配合`FileInputStream`来实现这一目标。具体步骤包括: 1. 创建一个指向TXT文件的`FileInputStream`对象。 2. 使用`...
在Java编程语言中,识别文件编码格式是一项重要的任务,特别是在处理不同来源的文本文件时。在没有第三方JAR包的情况下,我们通常需要依赖Java内置的API来实现这一功能。以下是一些关键知识点: 1. **字符编码**:...
本话题主要关注如何使用Java解析ASN.1编码格式的CDR(Call Detail Record)话单文件。 CDR是通信系统中记录通话、短信等通信活动详细信息的数据文件,包含诸如呼叫时间、时长、主叫号码、被叫号码、通话状态等多种...
不同的操作系统、软件可能使用不同的默认编码格式,这就会导致在跨平台或跨软件间读写文件时出现乱码问题。因此,在处理文件时,明确指定文件的编码格式是十分重要的。 #### 三、Java读取XML文件 对于XML文件的读取...
在Java编程中,读写文本文件(如`.txt`文件)是常见的操作,尤其是在处理配置文件时。配置文件通常以键值对(key-value pairs)的形式存储数据,便于程序访问和管理设置。以下是对这个主题的详细阐述: 1. **Java I...
如果很多时候我们没有约定好文件格式,我们就难以读取文件内容,此时,我们就需要一个工具来探测所读文本的编码格式,此工具可以允许用户读取诸如utf-8,gbk,gb2312一类的文件格式。内置了一些常用的探测实现类,...
### Java读取文件方法大全:读取File流等技术 在Java中,读取文件是一项基本且重要的操作,它可以通过多种方式实现,如字节流、字符流和基于行的读取。下面将详细介绍这些方法: #### 字节级读取:`...
无论是处理URL中的特殊字符,还是确保文件内容的正确读写,都需要对各种编码格式有深入的理解。在日常工作中,使用合适的编程工具和库可以帮助我们高效地处理这些问题,提高代码的健壮性和可维护性。因此,对于IT...
在Java开发中,经常会遇到需要处理不同编码格式的文件的情况。为了确保程序能够正确解析文件内容,必须先判断文件的编码格式。本文将详细介绍如何使用Java来判断文件是否为UTF-8或GBK编码,并提供一个示例代码。 ##...
标题"java 文件编码转换"指的是使用Java来解决文件编码问题,而描述中提到的"提供一个jar包和一个java文件"则暗示了我们可以通过这两个文件实现这个功能。 首先,`chardet.jar`可能是一个字符集检测库,用于自动...