`
xiongbin
  • 浏览: 14580 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

处理文章截取时对html的处理

阅读更多
package people.util;

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import javax.servlet.jsp.JspException;
import javax.servlet.jsp.JspWriter;
import javax.servlet.jsp.tagext.TagSupport;

import org.apache.log4j.Logger;

public class CutHtml extends TagSupport {

    private static final long serialVersionUID = 1L;
    protected final Logger log = Logger.getLogger(getClass());

    private static String htmlMatch = "";
    private String param;
    private int length;
    private String endWith;

    public int doStartTag() throws JspException {
JspWriter out = pageContext.getOut();
String str = null;
try {
    str = subStringHTML(param, length, endWith);
    str=str.replaceAll("<img", "<img onload=\"javascript:DrawImage(this,200,150)\"");
    str=str.replaceAll("<IMG", "<IMG onload=\"javascript:DrawImage(this,200,150)\"");
    out.print(str);
} catch (Exception e) {
    log.error("", e);
}
return super.doStartTag();
    }

    // 通过递归删除html文件中的配对的html标签

    public static String removeMatchHtmlTag() {

Pattern p = Pattern.compile("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>");
Matcher m = p.matcher(htmlMatch);

if (m.find()) {

    htmlMatch = htmlMatch.replaceAll("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>", "$2");

    removeMatchHtmlTag();
}

return htmlMatch;
    }

    public static String subStringHTML(String par, int len, String end) {

if (len < 1) {

    return null;
}

if (par.length() < len) {
    return par;
}

StringBuffer result = new StringBuffer();
StringBuffer str = new StringBuffer();
int n = 0;

char temp;

boolean isCode = false; // 是不是HTML代码
boolean isHTML = false; // 是不是HTML特殊字符,如
for (int i = 0; i < par.length(); i++) {
    temp = par.charAt(i);
    if (temp == '<') {
isCode = true;
    } else if (temp == '&') {
isHTML = true;
    } else if (temp == '>' && isCode) {
n = n - 1;
isCode = false;
    } else if (temp == ';' && isHTML) {
isHTML = false;
    }
    if (!isCode && !isHTML) {
n = n + 1;
if ((temp + "").getBytes().length > 1) {
    n = n + 1;
}
str.append(temp);
    }
    result.append(temp);
    if (n >= len) {
break;
    }
}

result.append(end);
// 取出截取字符串中的HTML标记
String temp_result = result.toString().replaceAll("(>)[^<>]*(<?)", "$1$2");

// 去掉不需要结束标记的HTML标记

temp_result = temp_result
.replaceAll(
"<(AREA|BASE|BASEFONT|BODY|BR|COL|COLGROUP|DD|DT|FRAME|HEAD|HR|HTML|IMG|INPUT|ISINDEX|LI|LINK|META|OPTION|P|PARAM|TBODY|TD|TFOOT|TH|THEAD|TR|area|base|basefont|body|br|col|colgroup|dd|dt|frame|head|hr|html|img|input|isindex|li|link|meta|option|p|param|tbody|td|tfoot|th|thead|tr)[^<>]*/>",
"");

// 去掉成对的HTML标记
htmlMatch = temp_result;
temp_result = removeMatchHtmlTag();

// 用正则表达式取出标记

Pattern p = Pattern.compile("<([a-zA-Z]+)[^<>]*>");
Matcher m = p.matcher(temp_result);
List<String> endHTML = new ArrayList<String>();

while (m.find()) {
    endHTML.add(m.group(1));
}

// 补全不成对的HTML标记
for (int i = endHTML.size() - 1; i >= 0; i--) {
    result.append("</");
    result.append(endHTML.get(i));
    result.append(">");
}
return result.toString();

    }

    public String getParam() {
return param;
    }

    public void setParam(String param) {
this.param = param;
    }

    public int getLength() {
return length;
    }

    public void setLength(int length) {
this.length = length;
    }

    public String getEndWith() {
return endWith;
    }

    public void setEndWith(String endWith) {
this.endWith = endWith;
    }

}
分享到:
评论

相关推荐

    JSP中截取在线编辑器的字符串的处理.

    使用Jsoup,我们可以方便地提取、修改、截取HTML内容,同时保持其结构的完整。 以提供的`SubStringHTML.java`为例,这个文件很可能实现了一个函数,用于处理上述的HTML字符串截取。可能的代码示例如下: ```java ...

    javascript 文章截取部分无损html显示实现代码

    为了在不破坏HTML结构的情况下截取文章的一部分,我们需要编写智能的代码来处理HTML字符串。以下是对给定的JavaScript代码的详细解释: 首先,定义一个名为`br`的对象,它包含两个属性:`spTags`(不需要成对出现的...

    按字节长度截取字符串(支持截取带HTML代码样式的字符串)

    本篇文章将深入探讨如何在C#中按照字节长度截取带有HTML代码样式的字符串,并确保截取后的字符串仍能保持有效的HTML结构。 首先,理解为什么需要按照字节长度而不是字符长度截取字符串。在处理非ASCII字符(如中文...

    asp截取文章标题的长度达大小

    因此,在截取标题之前,应该对用户输入进行过滤和转义。这里提到的“使用过滤和防注入函数来过滤掉一些特殊的字符”就是指的这一过程。 在ASP.NET中,我们可以使用`HttpUtility.HtmlEncode()`或`Server.HtmlEncode...

    asp截取文章中的第一个图片的函数

    在ASP(Active Server Pages)开发中,经常需要处理HTML内容,比如从文章中提取特定信息,如图片链接。"asp截取文章中的第一个图片的函数"这个标题所指的,就是一个用于从HTML文本中提取出第一个图片URL的脚本函数。...

    用htmlparser截取html摘要实现源码

    以上就是使用HTMLParser库截取HTML摘要的基本步骤。请注意,这只是一个基础示例,实际应用中可能需要根据网页结构的复杂性进行更复杂的逻辑处理,例如处理嵌套标签、过滤广告或脚本等。此外,对于一些复杂的网页,...

    截取网站整个页面工具

    在日常工作中,我们可能需要保存网站上的大量信息,如文章、教程或研究资料,这时普通的屏幕截图工具往往无法满足需求,因为它们只能截取当前屏幕可见区域。"截取网站整个页面工具"正是为了解决这个问题而设计的,它...

    php通用截取字符串.zip

    例如,当我们处理用户评论或文章预览时,可能会先使用 `strip_tags()` 去除HTML标签,然后使用 `substr()` 或 `mb_substr()` 截取一定数量的字符。 在开发过程中,了解并熟练掌握这些字符串处理函数,将有助于编写...

    实现图片截取+预览功能的jquery插件

    本篇文章将详细讲解如何利用jQuery实现图片截取和预览功能,这对于网页上的图像处理非常实用,特别是对于需要用户上传图片并进行裁剪的应用。 首先,实现图片截取功能通常需要借助HTML5的Canvas元素。Canvas提供了...

    Asp长文章含html标签分页

    2. **内容处理**:由于文章包含HTML标签,需要确保在分页时不破坏HTML结构。这可能需要对文章内容进行正则表达式匹配,将HTML标签视为单个单元,而不是普通文本。 3. **分页逻辑**:计算总页数,根据用户请求的页码...

    web数据截取软件

    这些软件能够帮助用户自动化地从网页上提取大量信息,例如产品价格、用户评论、文章内容等,广泛应用于市场分析、数据分析、SEO优化等多个场景。 Web数据截取软件的核心功能包括网页爬虫和网页抓取。网页爬虫是一种...

    asp.net(文章截取前几行作为列表摘要)无损返回HTML代码

    ### *** 文章截取前几行作为列表摘要无损返回HTML代码知识点总结 #### 1. HTML代码的无损截取需求背景 在网页内容展示或者内容摘要生成过程中,经常需要从HTML格式的文章中提取部分内容作为列表的摘要。对于HTML...

    php对包含html标签的字符串进行截取的函数分享

    在PHP编程中,有时我们需要处理包含HTML标签的字符串,例如在生成摘要或限制内容长度时。在这种情况下,标准的字符串截取函数(如`substr`)可能会导致HTML结构的破坏,因为它们不会考虑标签的开启和关闭。为了解决...

    新闻小偷截取程序(自定义新闻截取系统)

    综上所述,"新闻小偷截取程序"是一个涉及网络爬虫、HTML解析、数据处理和数据库管理等多个领域的复杂项目。其目标是高效、智能地收集网络新闻,为用户提供定制化的信息服务。然而,使用此类工具时需谨慎,遵循互联网...

    截取网页长图的方法.docx

    网页长图的截取在日常网络使用中非常常见,尤其对于需要保存完整页面信息的情况,如教程、文章或电商商品详情。以下是一些详细的步骤和方法来帮助你更有效地截取网页长图: 1. **开启开发者工具**: - 按下`F12`键...

    截取显示器当前显示内容 保存为图片

    总结起来,截取显示器当前显示内容并保存为图片涉及到操作系统级别的屏幕捕获API、图像处理库如PIL以及可能的网页自动化技术。理解这些基本概念和技术,可以帮助我们构建自己的截图工具,满足个性化的需求。而文件...

    HTML超出文本多行截取实现原理及代码

    在Web开发中,文本截取是一项常见的需求,尤其是在处理内容显示区域有限的情况时。当文本内容超过其容器的可视范围时,我们需要对文本进行适当的截取以保持界面的整洁和用户体验的流畅。本文讨论的便是HTML中实现...

    自定义函数解决帝国cms的简介截取字符时出现html的问题

    3. 修改列表内容模板:在模板文件中调用NoHTML函数,并利用`esub`函数来截取经过NoHTML处理后的字符串到指定的字符数长度。同时可以指定省略号`'...'`作为字符串截断的替代文本。 上述自定义函数的代码如下: ```...

Global site tag (gtag.js) - Google Analytics