`

【转】java截取带html标签的字符串,再把标签补全(保证页面显示效果)

 
阅读更多

【转】http://blog.csdn.net/zdtwyjp/article/details/5736430

Java截取带HTML标签的字符串,一般情况下有三种实现方式:

1、在截取字符串函数中对HTML标签进行闭合(对标签作入栈出栈式处理即可)。

2、过滤掉HTML。

3、如果需要保留样式的话,可以按照格式提取各节内容,然后分别截取之后再重新用HTML做出表现样式。

 

1和2的方法不够好。因为1在截取长度时,是边所有的HTML标签都计算在内的,如果有的内容包含HTML标签较多,哪它实际的正文内容就得少了。所以不同内容可能表现长度不一,视觉效果不好。而2,没有格式,当然不可取。所以相对来说, 3比较好些。先提取内容然后再将内容补全,具体实现代码如下:

 

 

[java] view plain copy
 
  1. package string;  
  2. public class TagsList {  
  3.     private String[] data;  
  4.     private int size = 0;  
  5.     public TagsList(int size) {  
  6.         data = new String[size];  
  7.     }  
  8.     public TagsList() {  
  9.         this(10);  
  10.     }  
  11.     public void add(String str) {  
  12.         ensureCapacity(size + 1);  
  13.         data[size++] = str;  
  14.     }  
  15.     public String get(int index) {  
  16.         if(index < size)  
  17.             return data[index];  
  18.         else  
  19.             return null;  
  20.     }  
  21.     // 为了提高效率,只将其置为null  
  22.     public boolean remove(String str) {  
  23.         for(int index = 0; index < size; index++) {  
  24.             if(str.equals(data[index])) {  
  25.                 data[index] = null;  
  26.                 return true;  
  27.             }  
  28.         }  
  29.         return false;  
  30.     }  
  31.     public boolean remove(int index) {  
  32.         if(index < data.length) {  
  33.             data[index] = null;  
  34.             return true;  
  35.         }  
  36.         return false;  
  37.     }  
  38.     public int size() {  
  39.         return this.size;  
  40.     }  
  41.     // 扩展容量  
  42.     public void ensureCapacity(int minSize) {  
  43.         int oldCapacity = data.length;  
  44.         if(minSize > oldCapacity) {  
  45.             int newCapacity = (oldCapacity * 3 / 2 + 1) > minSize ? oldCapacity * 3 / 2 + 1 : minSize;  
  46.             String[] newArray = new String[newCapacity];  
  47.             for(int i = 0; i < data.length; i++) {  
  48.                 newArray[i] = data[i];  
  49.             }  
  50.             data = newArray;  
  51.         }  
  52.     }  
  53. }  
  54.   
  55. package string;  
  56.   
  57. /** 
  58.  * java截取带html标签的字符串,再把标签补全(保证页面显示效果)<br> 
  59.  * 一般是用在字符串中有html标签的截取.如: 后台发布用了在线编辑器, 前台显示内容要截取的情况.<br> 
  60.  *  
  61.  * @author YangJunping 
  62.  * @date 2010-7-15 
  63.  */  
  64. public class SubStringHTML {  
  65.     public static void main(String[] args) {  
  66.         String htmlCode = "<h1><span style="/" mce_style="/""font-size: xx-large; color: #000000;/">新华网北京7月13,.</span></h1><h1><span>北京7——月13</span></h1>";  
  67.         System.out.println(subStringHTML(htmlCode, 5));  
  68.         // 测试结果:<h1><span style="font-size: xx-large; color: #000000;" mce_style="font-size: xx-large; color: #000000;">新华网</span></h1>  
  69.     }  
  70.     /** 
  71.      * 按子节长度截取字符串(支持截取带HTML代码样式的字符串)<br> 
  72.      * 如:<span>中国人发在线</span> 当截取2个字节得到的结果是:<span>中国 
  73.      *  
  74.      * @param param 
  75.      *            将要截取的含html代码的字符串参数 
  76.      * @param length 
  77.      *            截取的字节长度 
  78.      * @return 返回截取后的字符串 
  79.      * @author YangJunping 
  80.      * @date 2010-7-15 
  81.      */  
  82.     public static String subStringHTML(String param, int length) {  
  83.         StringBuffer result = new StringBuffer();  
  84.         int n = 0;  
  85.         char temp;  
  86.         boolean isCode = false// 是不是HTML代码  
  87.         boolean isHTML = false// 是不是HTML特殊字符,如   
  88.         for(int i = 0; i < param.length(); i++) {  
  89.             temp = param.charAt(i);  
  90.             if(temp == '<') {  
  91.                 isCode = true;  
  92.             }else if(temp == '&') {  
  93.                 isHTML = true;  
  94.             }else if(temp == '>' && isCode) {  
  95.                 n = n - 1;  
  96.                 isCode = false;  
  97.             }else if(temp == ';' && isHTML) {  
  98.                 isHTML = false;  
  99.             }  
  100.             if(!isCode && !isHTML) {  
  101.                 n = n + 1;  
  102.                 // UNICODE码字符占两个字节  
  103.                 if((temp + "").getBytes().length > 1) {  
  104.                     n = n + 1;  
  105.                 }  
  106.             }  
  107.             result.append(temp);  
  108.             if(n >= length) {  
  109.                 break;  
  110.             }  
  111.         }  
  112.         return fix(result.toString());  
  113.     }  
  114.     /** 
  115.      * 补全HTML代码<br> 
  116.      * 如:<span>中国 ---> <span>中国</span> 
  117.      *  
  118.      * @param str 
  119.      * @return 
  120.      * @author YangJunping 
  121.      * @date 2010-7-15 
  122.      */  
  123.     private static String fix(String str) {  
  124.         StringBuffer fixed = new StringBuffer(); // 存放修复后的字符串  
  125.         TagsList[] unclosedTags = getUnclosedTags(str);  
  126.         // 生成新字符串  
  127.         for(int i = unclosedTags[0].size() - 1; i > -1; i--) {  
  128.             fixed.append("<" + unclosedTags[0].get(i) + ">");  
  129.         }  
  130.         fixed.append(str);  
  131.         for(int i = unclosedTags[1].size() - 1; i > -1; i--) {  
  132.             String s = null;  
  133.             if((s = unclosedTags[1].get(i)) != null) {  
  134.                 fixed.append("</" + s + ">");  
  135.             }  
  136.         }  
  137.         return fixed.toString();  
  138.     }  
  139.     private static TagsList[] getUnclosedTags(String str) {  
  140.         StringBuffer temp = new StringBuffer(); // 存放标签  
  141.         TagsList[] unclosedTags = new TagsList[2];  
  142.         unclosedTags[0] = new TagsList(); // 前不闭合,如有</div>而前面没有<div>  
  143.         unclosedTags[1] = new TagsList(); // 后不闭合,如有<div>而后面没有</div>  
  144.         boolean flag = false// 记录双引号"或单引号'  
  145.         char currentJump = ' '// 记录需要跳过''还是""  
  146.         char current = ' ', last = ' '// 当前 & 上一个  
  147.         // 开始判断  
  148.         for(int i = 0; i < str.length();) {  
  149.             current = str.charAt(i++); // 读取一个字符  
  150.             if(current == '"' || current == '/'') {  
  151.                 flag = flag ? false : true// 若为引号,flag翻转  
  152.                 currentJump = current;  
  153.             }  
  154.             if(!flag) {  
  155.                 if(current == '<') { // 开始提取标签  
  156.                     current = str.charAt(i++);  
  157.                     if(current == '/') { // 标签的闭合部分,如</div>  
  158.                         current = str.charAt(i++);  
  159.                         // 读取标签  
  160.                         while(i < str.length() && current != '>') {  
  161.                             temp.append(current);  
  162.                             current = str.charAt(i++);  
  163.                         }  
  164.                         // 从tags_bottom移除一个闭合的标签  
  165.                         if(!unclosedTags[1].remove(temp.toString())) { // 若移除失败,说明前面没有需要闭合的标签  
  166.                             unclosedTags[0].add(temp.toString()); // 此标签需要前闭合  
  167.                         }  
  168.                         temp.delete(0, temp.length()); // 清空temp  
  169.                     }else { // 标签的前部分,如<div>  
  170.                         last = current;  
  171.                         while(i < str.length() && current != ' ' && current != ' ' && current != '>') {  
  172.                             temp.append(current);  
  173.                             last = current;  
  174.                             current = str.charAt(i++);  
  175.                         }  
  176.                         // 已经读取到标签,跳过其他内容,如<div id=test>跳过id=test  
  177.                         while(i < str.length() && current != '>') {  
  178.                             last = current;  
  179.                             current = str.charAt(i++);  
  180.                             if(current == '"' || current == '/'') { // 判断引号  
  181.                                 flag = flag ? false : true;  
  182.                                 currentJump = current;  
  183.                                 if(flag) { // 若引号不闭合,跳过到下一个引号之间的内容  
  184.                                     while(i < str.length() && str.charAt(i++) != currentJump)  
  185.                                         ;  
  186.                                     current = str.charAt(i++);  
  187.                                     flag = false;  
  188.                                 }  
  189.                             }  
  190.                         }  
  191.                         if(last != '/' && current == '>'// 判断这种类型:<TagName />  
  192.                             unclosedTags[1].add(temp.toString());  
  193.                         temp.delete(0, temp.length());  
  194.                     }  
  195.                 }  
  196.             }else {  
  197.                 while(i < str.length() && str.charAt(i++) != currentJump)  
  198.                     ; // 跳过引号之间的部分  
  199.                 flag = false;  
  200.             }  
  201.         }  
  202.         return unclosedTags;  
  203.     }  
  204. }  
分享到:
评论

相关推荐

    java中截取带汉字的字符串

    ### Java中截取带汉字的字符串 在Java编程语言中,处理包含中文字符的字符串时,经常遇到的一个问题是如何正确地截取这些字符串。如果直接按照字节(byte)来进行分割,很容易导致中文字符被截断一半,从而形成乱码。...

    jsp页面截取字符串

    在JavaServer Pages (JSP) 中,字符串截取是一项常见的任务,特别是在处理用户输入或显示数据时。JSP 提供了内置对象和脚本元素来处理字符串操作,其中包括字符串截取。下面我们将深入探讨如何在 JSP 页面中进行字符...

    截取指定长度的字符串

    而在一些其他语言中,如Java,可能需要先将字符串转换为特定的字符编码(如UTF-8)再进行截取。 在实际应用中,我们可能还需要考虑一些边缘情况,例如当截取的长度超过了字符串的实际长度,这时通常会返回整个字符...

    关于java按字节截取带有汉字的字符串的解法

    在Java编程语言中,处理带有汉字的字符串时,由于汉字占据多个字节,按照字节进行截取可能会导致汉字被不完整地分割,从而产生乱码。为了解决这个问题,我们需要理解Unicode编码以及如何在Java中正确处理多字节字符...

    java编写一个截取字符串的函数,输入为一个字符串和字节数.docx

    Java 字符串截取函数 ...本例中,我们实现了一个 Java 字符串截取函数,该函数可以截取指定字节的字符串,并保证汉字不被截半个。该函数使用 `substring` 方法来实现字符串截取,并且可以应用于各种字符串处理场景。

    按字节长度截取字符串(支持截取带HTML代码样式的字符串)

    本篇文章将深入探讨如何在C#中按照字节长度截取带有HTML代码样式的字符串,并确保截取后的字符串仍能保持有效的HTML结构。 首先,理解为什么需要按照字节长度而不是字符长度截取字符串。在处理非ASCII字符(如中文...

    java 字符串截取工具类

    java 字符串截取工具类java 字符串截取工具类

    TIA博途-字符转换为字符串以及截取字符串有效字符的具体方法示例.docx

    在处理通信数据时,我们经常需要对字符和字符串进行操作,例如将字符转换为字符串,或者从字符串中截取有效字符。以下将详细介绍在TIA博途中如何实现这些操作。 首先,字符转换为字符串的过程通常涉及到ASCII码。...

    截取特定部分字符串

    在编程领域,特别是Android和Java开发中,经常需要处理字符串并从中截取特定部分。"截取特定部分字符串"这个话题涉及到字符串操作的基础知识,它包括查找字符串的开始位置、结束位置,然后提取这两个位置之间的子...

    rf.rar_RF 字符串截取_Rf字符串比较_rf字符串切割

    在这个"rf.rar"压缩包中,我们看到涉及到RF字符串处理的三个关键知识点:RF字符串截取、RF字符串比较以及RF字符串切割。 1. RF字符串截取: 正则表达式提供了灵活的字符串截取方式。通过定义匹配模式,可以精确地...

    SQL截取以逗号分隔的字符串SQL截取以逗号分隔的字符串

    SQL截取以逗号分隔的字符串SQL截取以逗号分隔的字符串SQL截取以逗号分隔的字符串SQL截取以逗号分隔的字符串

    C语言实现字符串截取

    根据给定的信息,本文将详细解释两个用于C语言中字符串截取的方法:`subStringByIndex` 和 `subStringByPointer`。这两个函数都属于自定义实现,它们提供了灵活且实用的功能来帮助开发者轻松地从一个字符串中提取所...

    java中如何截取字符串.txt

    根据提供的文件信息,本文将详细解释Java中截取字符串的各种方法及其使用场景,并结合部分示例代码进行说明。 ### Java中截取字符串的方法 在Java编程语言中,字符串的处理是一项非常重要的技能,特别是在开发中...

    截取字符串

    在编程领域,字符串操作是一项基础且重要的任务,而“截取字符串”是其中的一个关键功能。这个小demo展示了如何在不同的编程环境中实现字符串截取,同时也涉及到字符串的空格处理。接下来,我们将深入探讨这两个主题...

    php截取html字符串及自动补全html标签的方法

    在处理HTML字符串时,有时需要对内容进行截取,同时确保HTML标签能正确闭合,以保证页面的正确显示。本文将深入探讨如何利用PHP截取HTML字符串,并且提供自动补全HTML标签的方法。 首先,来看一下PHP截取HTML字符串...

    c#正则表达式截取指定字符串之间的字符串。类文件直接用就可以了~

    第二个是把所有的符合条件的字符串都截取出来,提取出来,比如字符串 string a="ab123456,"ab323456",那么就只要截取2到4之间的字符串,然后存入到了一个列表里,想提取直接读取列表就可以了,非常方便实用哦。

    Java精确截取字符串.pdf

    在Java编程中,有时我们需要对字符串进行精确截取,以便适应特定的需求,比如在网页显示、数据存储或者传输时限制长度。本篇将探讨如何在Java中实现这一功能。 首先,最常见的一种方法是使用`substring()`方法。...

    java字符串处理取出括号内的字符串

    在Java编程语言中,字符串处理是一项常见的任务,特别是在解析、分析或操作文本数据时。本篇文章将深入探讨如何从字符串中提取括号内的内容,主要关注于基础的字符串操作、正则表达式以及如何利用这些工具来实现目标...

    Delphi 字符串截取函数

    ### Delphi字符串截取函数详解 在Delphi编程语言中,字符串处理是极其常见的操作,尤其是在数据处理、文本分析和用户界面设计等场景下。Delphi提供了丰富的字符串处理函数,其中包括了截取、拼接、删除、插入等功能...

Global site tag (gtag.js) - Google Analytics