`
xuelianbobo
  • 浏览: 174597 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论

java 将html特殊码转换成字符 &#x

&#x 
阅读更多

 

首先得明白这种特殊码是什么,其实就是unicode吗 只是有格式而已。 

 

集  96c6 是16进制的格式。

注意在量词后面添加? 来实现非贪婪模式

直接上代码吧

package com.xue.tools;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.dom4j.DocumentException;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;

public class Test {

	public static void main(String[] args) throws IOException, DocumentException, XPatherException {
		// 定义正则表达式来搜索中文字符的转义符号
		Pattern compile = Pattern.compile("&#.*?;");
		// 测试用中文字符
		String sourceString = "C集团天c津大唐国际盘山发电有限责任公司";
		Matcher matcher = compile.matcher(sourceString);
		// 循环搜索 并转换 替换
		while (matcher.find()) {
			String group = matcher.group();
			// 获得16进制的码
			String hexcode = "0" + group.replaceAll("(&#|;)", "");
			// 字符串形式的16进制码转成int并转成char 并替换到源串中
			sourceString = sourceString.replaceAll(group, (char) Integer.decode(hexcode).intValue() + "");
		}
		System.out.println(sourceString);
	}

}

 

 

 

0
0
分享到:
评论

相关推荐

    中文转换成NCR编码

    3. 创建NCR字符串:将转换后的十六进制码点前加上`&#x`,并在末尾添加分号`;`。例如,`52294`转换为`利`,`75283`转换为`用`,`96401`转换为`陀`。 4. 替换原始字符串中的中文字符:将原始字符串...

    java实现字符转换成十六进制的ASCII码

    在这个例子中,我们遍历输入字符串中的每一个字符,将字符转换为其对应的ASCII码整数,然后使用`Integer.toHexString()`方法将ASCII码转换为16进制字符串。最后,我们将结果打印出来。 递归在本问题中可能是指将较...

    Java 字符串转换成点阵字库显示

    在Java编程中,将字符串转换成点阵字库显示是一种常见的需求,特别是在处理文本图形界面或者游戏开发时。点阵字库是一种将字符图形化表示的方式,它将每个字符用一系列像素点组成,每个点代表一个颜色(通常为黑白)...

    java 字符串转16进制Ascii

    因此,将字符串转换为16进制ASCII值意味着将每个字符的ASCII码转换为16进制形式。 以下是一个简单的Java方法,用于将字符串转换为16进制ASCII表示: ```java public static String strToHex(String input) { ...

    JAVA二进制字节数组字符十六进制BCD编码转换.doc

    在Java编程中,二进制、字节数组、字符、十六进制和BCD(Binary-Coded Decimal,二进制编码的十进制)编码转换是常见的数据处理任务。以下将详细介绍这些概念以及如何在Java中进行相关操作。 1. **二进制与十六进制...

    java_字符编码 Javajava_字符编码问题

    Java 的 `String` 类内部是以 Unicode 编码存储的,这意味着每个字符都对应一个特定的 Unicode 码点。 #### 三、字符编码转换 在实际开发过程中,经常需要对字符串进行编码转换,尤其是在与外部系统交互时,如读取...

    java 将文件中二进制文件转换成文本文本文件并输出

    在Java编程语言中,将二进制文件转换为文本文档通常涉及到字符编码的理解和处理。二进制文件可以包含任何类型的数据,如图像、音频、视频或纯文本,但以非可读格式存储。而文本文档通常使用特定的字符编码(如ASCII...

    Java字符集和编码

    - **8位ASCII码**:通过使用ASCII码未使用的高位空间,扩展了字符集,增加了更多特殊字符和符号,如横线、竖线、交叉等形状,编码范围扩展到了255。 ##### 2. 双字节字符集(DBCS) 双字节字符集(Double Byte ...

    java Base64自定义码表

    Base64是一种网络上常见的数据编码方式,它将任意二进制数据转化为可打印的ASCII字符串,以便在电子邮件、HTTP头部等不支持二进制传输的环境中传递。标准的Base64编码表由64个字符组成,包括大小写字母、数字以及"+...

    Ascii码转换器(java环境用的)

    标题中的“Ascii码转换器(java环境用的)”指的是一个基于Java编程语言开发的工具,用于进行ASCII编码与其它字符编码之间的转换。ASCII码,全称美国标准信息交换代码,是计算机系统中最基础的字符编码之一,它使用7位...

    截取如下字符串“java程序教程”的前5个字节,字符串应该为“java程”,截取前6个字符,字符串也应该为“java程”,程序实现之.

    为了实现这一需求,Java提供了String类的getBytes()方法,用于将字符串转换成字节数组,同样也提供了substring()方法用于截取字符串。但在本例中,使用substring()方法无法直接达到目标,因为这种方法无法直接对字节...

    Java利用ascii码表把汉字转换成拼音

    在Java编程语言中,将汉字转换为拼音是一项常见的任务,特别是在处理中文文本或者需要进行语音合成等场景下。本文将详细介绍如何利用ASCII码表来实现这个功能,以及相关的技术要点。 首先,我们要明白汉字和拼音...

    java程序中处理一个包含诡异的不可见的字符。

    这些不可见字符通常属于Unicode字符集中的特殊字符,例如空格、制表符、换行符等。处理这类问题需要深入理解字符编码和字符串处理的原理。 首先,我们要了解字符编码。在Java中,标准的字符编码是Unicode,它包含了...

    java生成一维码

    本文将深入探讨如何使用Java来生成一维码,并结合提供的资源进行详细讲解。 首先,要理解一维码是一种将数据编码为可机器读取的图形表示形式,比如常见的Code 128、UPC-A或EAN-13等。在Java中,我们可以利用开源库...

    StringUtil.java(字符串工具类)

    USER_NAME to UserName,USER_NAME to userName,转义正则特殊字符 ,获取字符串长度汉字占两个字符,验证号码是否合法 (是否是手机号或者电话号码),将经纬度转换成字符串,将字符转换成二进制,将二进制字符串...

    JAVA中处理字符串的类

    在Java编程语言中,处理字符串是一项常见的任务。Java提供了多种内置类来支持字符串操作,但有时这些类可能不能完全满足开发者的特定需求。在这种情况下,开发者可能会选择自定义工具类来封装常用的功能,以提高代码...

    JAVA中防止SQL注入攻击类的源代码

    - **字符串连接**:`stringConnect`方法用于将字符串数组连接成一个字符串,同时插入指定的分隔符。 - **字符串过滤**:`stringFilter`方法用于过滤字符串中的特殊字符,通过遍历`FilterChars`数组进行替换。 - **...

    PHP基础教程 是一个比较有价值的PHP新手教程!

    字符被转化成数字,利用其最初位置。在PHP手册中有详细的例子。 数组与哈希表 数组与哈希表以同样的方法被支持。怎样运用取决于你怎样定义它们。你可以用list()或者array()来定义它们,也可以直接为数组赋值。数组...

    java中文乱码字符集解决大全.pdf

    - **编译阶段**:使用JDK中的javac编译器将.java源文件转化为.class字节码文件。javac默认使用UTF-8编码读取源文件,但可以通过设置`-encoding`参数指定其他编码。 - **执行阶段**:Java虚拟机(JVM)加载并运行....

    替换特殊字符撤柜本身加空格

    在探讨“替换特殊字符撤柜本身加空格”的主题时,我们主要关注的是Java编程语言中的`replaceAll`方法,这是处理字符串中特定模式的强大工具。`replaceAll`是`String`类的一个成员方法,用于替换字符串中所有匹配正则...

Global site tag (gtag.js) - Google Analytics