下面这段代码用来获取文章内容,并通过NekoHTML来解析获得去掉HTML标签的文章内容.标红的地方就是用来设置字符集的,第一个是XML格式的字符集(似乎没什么用),第二个地方是将字符串的内容通过输入流读入,如果不指定的话在GAE中默认的是ISO-8859-1(本地的话以设置的文件的字符类型为主),第三个地方是设置XML解析器的字符集。昨晚就是第二个地方没有设置,导致乱码。在测试的过程中还学到一点:GBK->ISO-8859-1 的过程是不可逆的,也就是说如果把中文字符转成了ISO-8859-1的话,就再也转不过来了,中文变成了"????"。因此在保险起见,输入输出流在使用的时候最好都加上字符集。
1 public String getContent(String xwnr) throws Exception {
2 String xml = "<?xml version=\"1.0\" encoding=\"UTF-8\"?><content>" + xwnr + "</content>";
3 DOMFragmentParser parser = new DOMFragmentParser();
4 DocumentFragment node = new HTMLDocumentImpl().createDocumentFragment();
5
6 InputStream is = new ByteArrayInputStream(xml.getBytes("UTF-8"));
7
8 InputSource input = new InputSource(is);
9 input.setEncoding("UTF-8");
10 try {
11 parser.parse(input, node);
12 } catch (IOException e) {
13 e.printStackTrace();
14 } catch (SAXException se) {
15 se.printStackTrace();
16 }
17 StringBuffer newContent = new StringBuffer();
18 this.getText(newContent, node);
19
20 /*String str = ( new String(
21 newContent.toString().getBytes("Windows-1252"), "UTF-8" ));*/
22
23 String str = newContent.toString();
24
25 if (str.length()>200){
26 return str.substring(0,200);
27 }else{
28 return str;
29 }
30 }
今天受到了不少关注,非常高兴,非常感谢支持我的同学们,我会慢慢的将开发的过程写出来与大家分享。
分享到:
相关推荐
"乱码问题的解决" 在 Web 开发中,乱码问题是常见的难题之一。乱码问题的出现主要是由于编码不一致引起的。编码不一致可能出现在多个方面,如页面编码、服务器编码、客户端编码、数据库编码等。在本文中,我们将...
在IT领域,乱码问题是一个常见的困扰,尤其是在处理文本数据时。...乱码问题虽然麻烦,但只要了解其产生原因,掌握解决方法,就能有效地应对。在日常工作中,保持良好的编码习惯和规范的操作流程,是预防乱码的关键。
MySQL数据库系统中文乱码问题及解决方案 MySQL数据库系统中文乱码问题是指在使用MySQL数据库系统时,中文字符在存储、传输和显示过程中出现乱码的问题。这种问题的出现是由于字符集和编码方式的不兼容所致。 在...
ACCESS+ASP中文乱码问题的解决方法借鉴 在 Web 开发中,中文乱码问题是一个常见的问题,特别是在使用 ACCESS+ASP 框架时。乱码问题的出现可能是由于编码方式不协调所致。在这个文件中,我们将对 ACCESS+ASP 中文...
Java 乱码问题是 Java 开发中常见的问题之一,解决这个问题需要了解 Java 的编码方式、JSP 中文乱码问题、Tomcat 5.5 中文乱码问题、JDBC ODBC Bridge 的 Bug 及其解决方法、Solaris 下 Servlet 编程的中文问题及...
FORM表单中文乱码问题分析与解决 在 Web 开发中,中文乱码问题是一个常见的问题,尤其是在FORM表单传递参数时。这个问题的根本原因是对中文的编码与解码方式不一致。我们可以理解为对中文的加密与解密的密钥不一致...
qt乱码问题解决
总之,解决Oracle数据库的乱码问题需要深入理解字符集的工作原理,确保所有环节从输入、存储到输出都保持字符集的一致性。在处理中文数据时,选择支持汉字的字符集如GBK或UTF-8尤为重要,以确保数据的准确显示和处理...
本文详细介绍了如何解决Ubuntu和Windows在处理文件时发生的乱码问题。 首先,我们需要了解文件乱码的原因。Windows系统中的许多纯文本文件(包括压缩文件)默认使用GBK编码,这是一种针对中文字符的扩展字符集。当...
"Java中文乱码问题解决" Java中文乱码问题是Java开发中常见的问题,尤其是在Web开发中,乱码问题会导致页面显示混乱,影响用户体验。解决乱码问题需要了解编码的基本原理和各种编码格式的区别。 编码的原因可以...
ORACLE数据库中文显示乱码问题的解决,系统中ORACLE数据库在安装后不能正确显示中文,而是显示为'???'等此类乱码。他人总结分析的内容,可以参考下。
解决 JSP 中文乱码问题 解决 JSP 中文乱码问题是一个很常见的问题,在 JSP 开发过程中,经常出现中文乱码的问题,可能一至困扰着大家。下面我们将详细讨论 JSP 中文乱码问题的成因和解决方法。 JSP 中文乱码问题的...
SpringBoot乱码问题解决方案 SpringBoot框架是一款流行的Java Web开发框架,但是在实际开发中,开发者经常会遇到乱码问题,导致项目无法正常运行。为了解决这个问题,本文将详细介绍SpringBoot乱码问题解决方案,并...
解决linux下oracle中文乱码问题,添加中文支持解决linux下oracle中文乱码问题,添加中文支持解决linux下oracle中文乱码问题,添加中文支持解决linux下oracle中文乱码问题,添加中文支持解决linux下oracle中文乱码...
JSP 中文乱码问题解决办法 JSP 页面中中文乱码问题是指在 JSP 页面中使用中文时,页面显示乱码的现象。这种问题的解决办法可以从多方面入手,包括设置页面的字符编码、使用 POST 方式提交表单、使用 GET 方式提交...
* 使用 Putty 代替 Secure Shell Client 可以解决中文乱码问题,但不能彻底解决问题。 * 修改 Linux 系统的默认字符集可以彻底解决中文乱码问题。 * 安装 Linux 系统时,采用默认的英文安装,而不要使用中文。 * ...
本文将介绍 Linux 乱码问题的解决方案,包括安装 ibus 输入法、fcitx 输入法、解决 UTF-8 编码问题、解决 Flash 中的中文显示问题、解决 Java 程序中的中文显示问题等。 一、安装 ibus 输入法 在 Ubuntu 系统中,...
Java开发乱码问题解决方法汇总 Java开发中乱码问题是非常常见的问题之一,而解决这些问题需要具备一定的技术知识和经验。...如果读者在实际开发中遇到乱码问题,可以尝试使用这些方法来解决问题。