`

【转】java截取带html标签的字符串,再把标签补全(保证页面显示效果)

 
阅读更多

【转】http://blog.csdn.net/zdtwyjp/article/details/5736430

Java截取带HTML标签的字符串,一般情况下有三种实现方式:

1、在截取字符串函数中对HTML标签进行闭合(对标签作入栈出栈式处理即可)。

2、过滤掉HTML。

3、如果需要保留样式的话,可以按照格式提取各节内容,然后分别截取之后再重新用HTML做出表现样式。

 

1和2的方法不够好。因为1在截取长度时,是边所有的HTML标签都计算在内的,如果有的内容包含HTML标签较多,哪它实际的正文内容就得少了。所以不同内容可能表现长度不一,视觉效果不好。而2,没有格式,当然不可取。所以相对来说, 3比较好些。先提取内容然后再将内容补全,具体实现代码如下:

 

 

[java] view plain copy
 
  1. package string;  
  2. public class TagsList {  
  3.     private String[] data;  
  4.     private int size = 0;  
  5.     public TagsList(int size) {  
  6.         data = new String[size];  
  7.     }  
  8.     public TagsList() {  
  9.         this(10);  
  10.     }  
  11.     public void add(String str) {  
  12.         ensureCapacity(size + 1);  
  13.         data[size++] = str;  
  14.     }  
  15.     public String get(int index) {  
  16.         if(index < size)  
  17.             return data[index];  
  18.         else  
  19.             return null;  
  20.     }  
  21.     // 为了提高效率,只将其置为null  
  22.     public boolean remove(String str) {  
  23.         for(int index = 0; index < size; index++) {  
  24.             if(str.equals(data[index])) {  
  25.                 data[index] = null;  
  26.                 return true;  
  27.             }  
  28.         }  
  29.         return false;  
  30.     }  
  31.     public boolean remove(int index) {  
  32.         if(index < data.length) {  
  33.             data[index] = null;  
  34.             return true;  
  35.         }  
  36.         return false;  
  37.     }  
  38.     public int size() {  
  39.         return this.size;  
  40.     }  
  41.     // 扩展容量  
  42.     public void ensureCapacity(int minSize) {  
  43.         int oldCapacity = data.length;  
  44.         if(minSize > oldCapacity) {  
  45.             int newCapacity = (oldCapacity * 3 / 2 + 1) > minSize ? oldCapacity * 3 / 2 + 1 : minSize;  
  46.             String[] newArray = new String[newCapacity];  
  47.             for(int i = 0; i < data.length; i++) {  
  48.                 newArray[i] = data[i];  
  49.             }  
  50.             data = newArray;  
  51.         }  
  52.     }  
  53. }  
  54.   
  55. package string;  
  56.   
  57. /** 
  58.  * java截取带html标签的字符串,再把标签补全(保证页面显示效果)<br> 
  59.  * 一般是用在字符串中有html标签的截取.如: 后台发布用了在线编辑器, 前台显示内容要截取的情况.<br> 
  60.  *  
  61.  * @author YangJunping 
  62.  * @date 2010-7-15 
  63.  */  
  64. public class SubStringHTML {  
  65.     public static void main(String[] args) {  
  66.         String htmlCode = "<h1><span style="/" mce_style="/""font-size: xx-large; color: #000000;/">新华网北京7月13,.</span></h1><h1><span>北京7——月13</span></h1>";  
  67.         System.out.println(subStringHTML(htmlCode, 5));  
  68.         // 测试结果:<h1><span style="font-size: xx-large; color: #000000;" mce_style="font-size: xx-large; color: #000000;">新华网</span></h1>  
  69.     }  
  70.     /** 
  71.      * 按子节长度截取字符串(支持截取带HTML代码样式的字符串)<br> 
  72.      * 如:<span>中国人发在线</span> 当截取2个字节得到的结果是:<span>中国 
  73.      *  
  74.      * @param param 
  75.      *            将要截取的含html代码的字符串参数 
  76.      * @param length 
  77.      *            截取的字节长度 
  78.      * @return 返回截取后的字符串 
  79.      * @author YangJunping 
  80.      * @date 2010-7-15 
  81.      */  
  82.     public static String subStringHTML(String param, int length) {  
  83.         StringBuffer result = new StringBuffer();  
  84.         int n = 0;  
  85.         char temp;  
  86.         boolean isCode = false// 是不是HTML代码  
  87.         boolean isHTML = false// 是不是HTML特殊字符,如   
  88.         for(int i = 0; i < param.length(); i++) {  
  89.             temp = param.charAt(i);  
  90.             if(temp == '<') {  
  91.                 isCode = true;  
  92.             }else if(temp == '&') {  
  93.                 isHTML = true;  
  94.             }else if(temp == '>' && isCode) {  
  95.                 n = n - 1;  
  96.                 isCode = false;  
  97.             }else if(temp == ';' && isHTML) {  
  98.                 isHTML = false;  
  99.             }  
  100.             if(!isCode && !isHTML) {  
  101.                 n = n + 1;  
  102.                 // UNICODE码字符占两个字节  
  103.                 if((temp + "").getBytes().length > 1) {  
  104.                     n = n + 1;  
  105.                 }  
  106.             }  
  107.             result.append(temp);  
  108.             if(n >= length) {  
  109.                 break;  
  110.             }  
  111.         }  
  112.         return fix(result.toString());  
  113.     }  
  114.     /** 
  115.      * 补全HTML代码<br> 
  116.      * 如:<span>中国 ---> <span>中国</span> 
  117.      *  
  118.      * @param str 
  119.      * @return 
  120.      * @author YangJunping 
  121.      * @date 2010-7-15 
  122.      */  
  123.     private static String fix(String str) {  
  124.         StringBuffer fixed = new StringBuffer(); // 存放修复后的字符串  
  125.         TagsList[] unclosedTags = getUnclosedTags(str);  
  126.         // 生成新字符串  
  127.         for(int i = unclosedTags[0].size() - 1; i > -1; i--) {  
  128.             fixed.append("<" + unclosedTags[0].get(i) + ">");  
  129.         }  
  130.         fixed.append(str);  
  131.         for(int i = unclosedTags[1].size() - 1; i > -1; i--) {  
  132.             String s = null;  
  133.             if((s = unclosedTags[1].get(i)) != null) {  
  134.                 fixed.append("</" + s + ">");  
  135.             }  
  136.         }  
  137.         return fixed.toString();  
  138.     }  
  139.     private static TagsList[] getUnclosedTags(String str) {  
  140.         StringBuffer temp = new StringBuffer(); // 存放标签  
  141.         TagsList[] unclosedTags = new TagsList[2];  
  142.         unclosedTags[0] = new TagsList(); // 前不闭合,如有</div>而前面没有<div>  
  143.         unclosedTags[1] = new TagsList(); // 后不闭合,如有<div>而后面没有</div>  
  144.         boolean flag = false// 记录双引号"或单引号'  
  145.         char currentJump = ' '// 记录需要跳过''还是""  
  146.         char current = ' ', last = ' '// 当前 & 上一个  
  147.         // 开始判断  
  148.         for(int i = 0; i < str.length();) {  
  149.             current = str.charAt(i++); // 读取一个字符  
  150.             if(current == '"' || current == '/'') {  
  151.                 flag = flag ? false : true// 若为引号,flag翻转  
  152.                 currentJump = current;  
  153.             }  
  154.             if(!flag) {  
  155.                 if(current == '<') { // 开始提取标签  
  156.                     current = str.charAt(i++);  
  157.                     if(current == '/') { // 标签的闭合部分,如</div>  
  158.                         current = str.charAt(i++);  
  159.                         // 读取标签  
  160.                         while(i < str.length() && current != '>') {  
  161.                             temp.append(current);  
  162.                             current = str.charAt(i++);  
  163.                         }  
  164.                         // 从tags_bottom移除一个闭合的标签  
  165.                         if(!unclosedTags[1].remove(temp.toString())) { // 若移除失败,说明前面没有需要闭合的标签  
  166.                             unclosedTags[0].add(temp.toString()); // 此标签需要前闭合  
  167.                         }  
  168.                         temp.delete(0, temp.length()); // 清空temp  
  169.                     }else { // 标签的前部分,如<div>  
  170.                         last = current;  
  171.                         while(i < str.length() && current != ' ' && current != ' ' && current != '>') {  
  172.                             temp.append(current);  
  173.                             last = current;  
  174.                             current = str.charAt(i++);  
  175.                         }  
  176.                         // 已经读取到标签,跳过其他内容,如<div id=test>跳过id=test  
  177.                         while(i < str.length() && current != '>') {  
  178.                             last = current;  
  179.                             current = str.charAt(i++);  
  180.                             if(current == '"' || current == '/'') { // 判断引号  
  181.                                 flag = flag ? false : true;  
  182.                                 currentJump = current;  
  183.                                 if(flag) { // 若引号不闭合,跳过到下一个引号之间的内容  
  184.                                     while(i < str.length() && str.charAt(i++) != currentJump)  
  185.                                         ;  
  186.                                     current = str.charAt(i++);  
  187.                                     flag = false;  
  188.                                 }  
  189.                             }  
  190.                         }  
  191.                         if(last != '/' && current == '>'// 判断这种类型:<TagName />  
  192.                             unclosedTags[1].add(temp.toString());  
  193.                         temp.delete(0, temp.length());  
  194.                     }  
  195.                 }  
  196.             }else {  
  197.                 while(i < str.length() && str.charAt(i++) != currentJump)  
  198.                     ; // 跳过引号之间的部分  
  199.                 flag = false;  
  200.             }  
  201.         }  
  202.         return unclosedTags;  
  203.     }  
  204. }  
分享到:
评论

相关推荐

    受激拉曼散射计量【Stimulated-Raman-Scattering Metrology】 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    MMC整流器技术解析:基于Matlab的双闭环控制策略与环流抑制性能研究,Matlab下的MMC整流器技术文档:18个子模块,双闭环控制稳定直流电压,环流抑制与最近电平逼近调制,优化桥臂电流波形,高效

    MMC整流器技术解析:基于Matlab的双闭环控制策略与环流抑制性能研究,Matlab下的MMC整流器技术文档:18个子模块,双闭环控制稳定直流电压,环流抑制与最近电平逼近调制,优化桥臂电流波形,高效并网运行。,MMC整流器(Matlab),技术文档 1.MMC工作在整流侧,子模块个数N=18,直流侧电压Udc=25.2kV,交流侧电压6.6kV 2.控制器采用双闭环控制,外环控制直流电压,采用PI调节器,电流内环采用PI+前馈解耦; 3.环流抑制采用PI控制,能够抑制环流二倍频分量; 4.采用最近电平逼近调制(NLM), 5.均压排序:电容电压排序采用冒泡排序,判断桥臂电流方向确定投入切除; 结果: 1.输出的直流电压能够稳定在25.2kV; 2.有功功率,无功功率稳态时波形稳定,有功功率为3.2MW,无功稳定在0Var; 3.网侧电压电流波形均为对称的三相电压和三相电流波形,网侧电流THD=1.47%<2%,符合并网要求; 4.环流抑制后桥臂电流的波形得到改善,桥臂电流THD由9.57%降至1.93%,环流波形也可以看到得到抑制; 5.电容电压能够稳定变化 ,工作点关键词:MMC

    Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪:基于功率反馈的扰动观察法调整电压方向研究,Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪:基

    Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪:基于功率反馈的扰动观察法调整电压方向研究,Boost二级升压光伏并网结构的Simulink建模与MPPT最大功率点追踪:基于功率反馈的扰动观察法调整电压方向研究,Boost二级升压光伏并网结构,Simulink建模,MPPT最大功率点追踪,扰动观察法采用功率反馈方式,若ΔP>0,说明电压调整的方向正确,可以继续按原方向进行“干扰”;若ΔP<0,说明电压调整的方向错误,需要对“干扰”的方向进行改变。 ,Boost升压;光伏并网结构;Simulink建模;MPPT最大功率点追踪;扰动观察法;功率反馈;电压调整方向。,光伏并网结构中Boost升压MPPT控制策略的Simulink建模与功率反馈扰动观察法

    STM32F103C8T6 USB寄存器开发详解(12)-键盘设备

    STM32F103C8T6 USB寄存器开发详解(12)-键盘设备

    2011-2020广东21市科技活动人员数

    科技活动人员数专指直接从事科技活动以及专门从事科技活动管理和为科技活动提供直接服务的人员数量

    Matlab Simulink仿真探究Flyback反激式开关电源性能表现与优化策略,Matlab Simulink仿真探究Flyback反激式开关电源的工作机制,Matlab Simulimk仿真

    Matlab Simulink仿真探究Flyback反激式开关电源性能表现与优化策略,Matlab Simulink仿真探究Flyback反激式开关电源的工作机制,Matlab Simulimk仿真,Flyback反激式开关电源仿真 ,Matlab; Simulink仿真; Flyback反激式; 开关电源仿真,Matlab Simulink在Flyback反激式开关电源仿真中的应用

    基于Comsol的埋地电缆电磁加热计算模型:深度解析温度场与电磁场分布学习资料与服务,COMSOL埋地电缆电磁加热计算模型:温度场与电磁场分布的解析与学习资源,comsol 埋地电缆电磁加热计算模型

    基于Comsol的埋地电缆电磁加热计算模型:深度解析温度场与电磁场分布学习资料与服务,COMSOL埋地电缆电磁加热计算模型:温度场与电磁场分布的解析与学习资源,comsol 埋地电缆电磁加热计算模型,可以得到埋地电缆温度场及电磁场分布,提供学习资料和服务, ,comsol;埋地电缆电磁加热计算模型;温度场分布;电磁场分布;学习资料;服务,Comsol埋地电缆电磁加热模型:温度场与电磁场分布学习资料及服务

    ibus-table-chinese-yong-1.4.6-3.el7.x64-86.rpm.tar.gz

    1、文件内容:ibus-table-chinese-yong-1.4.6-3.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/ibus-table-chinese-yong-1.4.6-3.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持:公众号禅静编程坊

    基于51单片机protues仿真的汽车智能灯光控制系统设计(仿真图、源代码)

    基于51单片机protues仿真的汽车智能灯光控制系统设计(仿真图、源代码) 一、设计项目 根据本次设计的要求,设计出一款基于51单片机的自动切换远近光灯的设计。 技术条件与说明: 1. 设计硬件部分,中央处理器采用了STC89C51RC单片机; 2. 使用两个灯珠代表远近光灯,感光部分采用了光敏电阻,因为光敏电阻输出的是电压模拟信号,单片机不能直接处理模拟信号,所以经过ADC0832进行转化成数字信号; 3. 显示部分采用了LCD1602液晶,还增加按键部分电路,可以选择手自动切换远近光灯; 4. 用超声模块进行检测距离;

    altermanager的企业微信告警服务

    altermanager的企业微信告警服务

    MyAgent测试版本在线下载

    MyAgent测试版本在线下载

    Comsol技术:可调BIC应用的二氧化钒VO2材料探索,Comsol模拟二氧化钒VO2的可调BIC特性研究,Comsol二氧化钒VO2可调BIC ,Comsol; 二氧化钒VO2; 可调BIC

    Comsol技术:可调BIC应用的二氧化钒VO2材料探索,Comsol模拟二氧化钒VO2的可调BIC特性研究,Comsol二氧化钒VO2可调BIC。 ,Comsol; 二氧化钒VO2; 可调BIC,Comsol二氧化钒VO2材料:可调BIC技术的关键应用

    C++学生成绩管理系统源码.zip

    C++学生成绩管理系统源码

    基于Matlab与Cplex的激励型需求响应模式:负荷转移与电价响应的差异化目标函数解析,基于Matlab与CPLEX的激励型需求响应负荷转移策略探索,激励型需求响应 matlab +cplex 激励

    基于Matlab与Cplex的激励型需求响应模式:负荷转移与电价响应的差异化目标函数解析,基于Matlab与CPLEX的激励型需求响应负荷转移策略探索,激励型需求响应 matlab +cplex 激励型需求响应采用激励型需求响应方式对负荷进行转移,和电价响应模式不同,具体的目标函数如下 ,激励型需求响应; matlab + cplex; 负荷转移; 目标函数。,Matlab与Cplex结合的激励型需求响应模型及其负荷转移策略

    scratch介绍(scratch说明).zip

    scratch介绍(scratch说明).zip

    深度学习模型的发展历程及其关键技术在人工智能领域的应用

    内容概要:本文全面介绍了深度学习模型的概念、工作机制和发展历程,详细探讨了神经网络的构建和训练过程,包括反向传播算法和梯度下降方法。文中还列举了深度学习在图像识别、自然语言处理、医疗和金融等多个领域的应用实例,并讨论了当前面临的挑战,如数据依赖、计算资源需求、可解释性和对抗攻击等问题。最后,文章展望了未来的发展趋势,如与量子计算和区块链的融合,以及在更多领域的应用前景。 适合人群:对该领域有兴趣的技术人员、研究人员和学者,尤其适合那些希望深入了解深度学习原理和技术细节的读者。 使用场景及目标:①理解深度学习模型的基本原理和结构;②了解深度学习模型的具体应用案例;③掌握应对当前技术挑战的方向。 阅读建议:文章内容详尽丰富,读者应在阅读过程中注意理解各个关键技术的概念和原理,尤其是神经网络的构成及训练过程。同时也建议对比不同模型的特点及其在具体应用中的表现。

    day02供应链管理系统-补充.zip

    该文档提供了一个关于供应链管理系统开发的详细指南,重点介绍了项目安排、技术实现和框架搭建的相关内容。 文档分为以下几个关键部分: 项目安排:主要步骤包括搭建框架(1天),基础数据模块和权限管理(4天),以及应收应付和销售管理(5天)。 供应链概念:供应链系统的核心流程是通过采购商品放入仓库,并在销售时从仓库提取商品,涉及三个主要订单:采购订单、销售订单和调拨订单。 大数据的应用:介绍了数据挖掘、ETL(数据抽取)和BI(商业智能)在供应链管理中的应用。 技术实现:讲述了DAO(数据访问对象)的重用、服务层的重用、以及前端JS的继承机制、jQuery插件开发等技术细节。 系统框架搭建:包括Maven环境的配置、Web工程的创建、持久化类和映射文件的编写,以及Spring配置文件的实现。 DAO的需求和功能:供应链管理系统的各个模块都涉及分页查询、条件查询、删除、增加、修改操作等需求。 泛型的应用:通过示例说明了在Java语言中如何使用泛型来实现模块化和可扩展性。 文档非常技术导向,适合开发人员参考,用于构建供应链管理系统的架构和功能模块。

    清华大学104页《Deepseek:从入门到精通》

    这份长达104页的手册由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队精心编撰,内容详尽,覆盖了从基础概念、技术原理到实战案例的全方位指导。它不仅适合初学者快速了解DeepSeek的基本操作,也为有经验的用户提供了高级技巧和优化策略。

    MXTU MAX仿毒舌自适应主题源码 苹果CMSv10模板.zip

    主题说明: 1、将mxtheme目录放置根目录 | 将mxpro目录放置template文件夹中 2、苹果cms后台-系统-网站参数配置-网站模板-选择mxpro 模板目录填写html 3、网站模板选择好之后一定要先访问前台,然后再进入后台设置 4、主题后台地址: MXTU MAX图图主题,/admin.php/admin/mxpro/mxproset admin.php改成你登录后台的xxx.php 5、首页幻灯片设置视频推荐9,自行后台设置 6、追剧周表在视频数据中,节目周期添加周一至周日自行添加,格式:一,二,三,四,五,六,日

    基于matlab平台的数字信号处理GUI设计.zip

    运行GUI版本,可二开

Global site tag (gtag.js) - Google Analytics