`
jinxhj2003
  • 浏览: 148965 次
  • 性别: Icon_minigender_1
  • 来自: 南昌
社区版块
存档分类
最新评论

过滤HTML部分

    博客分类:
  • java
阅读更多
package cn.jxsme.util.tool;

import java.util.regex.Pattern;

/*
* autho huangjin green eat 
*Oct 17, 2008
*/
public class FifterHtml {

public static String Html2Text(String inputString) {
    String htmlStr = inputString; //��html��ǩ���ַ�
        String textStr ="";
  java.util.regex.Pattern p_script;
  java.util.regex.Matcher m_script;
  java.util.regex.Pattern p_style;
  java.util.regex.Matcher m_style;
  java.util.regex.Pattern p_html;
  java.util.regex.Matcher m_html;
 
  try {
   String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //����script��������ʽ{��<script[^>]*?>[\\s\\S]*?<\\/script> }
   String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //����style��������ʽ{��<style[^>]*?>[\\s\\S]*?<\\/style> }
     // String regEx_html = "<[^>]+>"; //����HTML��ǩ��������ʽ
   String regEx_html = "<[.[^<]]*>";
      p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
      m_script = p_script.matcher(htmlStr);
      htmlStr = m_script.replaceAll(""); //����script��ǩ

      p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
      m_style = p_style.matcher(htmlStr);
      htmlStr = m_style.replaceAll(""); //����style��ǩ
  
      p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
      m_html = p_html.matcher(htmlStr);
      htmlStr = m_html.replaceAll(""); //����html��ǩ
     
     textStr= htmlStr.replaceAll("<td>", "");
     textStr=htmlStr.replaceAll("<","");
     textStr=htmlStr.replaceAll(">","");
   textStr = htmlStr;
  
  }catch(Exception e) {
   System.err.println("yjxHtml2Text().Html2Text: " + e.getMessage());
  }
 
  return textStr;//�����ı��ַ�
   }
public static String FifterSQL(String str)
    {
          return str.replaceAll(".*([';]+|(--)+).*", " ");


    }
public static String  TestToHtml(String input){
   if (input == null) {
return null;
}
if (input.length() == 0) {
return input;
}
input = input.replaceAll(" ", " ");
input = input.replaceAll("\r\n", "<br/>");
input = input.replaceAll("\n", "<br/>");
return input;
   }

public static String  HtmlToTest(String input){
       if (input == null) {
return null;
}
if (input.length() == 0) {
return input;
}
input = input.replaceAll( " "," ");
input = input.replaceAll("<br/>","\r\n");
input = input.replaceAll("<br/>","\n");
return input;

       }
}
分享到:
评论

相关推荐

    C#过滤html方法

    这种方法的优点在于,它可以正确处理嵌套标签、自闭合标签以及HTML属性,同时提供了更多的灵活性,比如保留特定的HTML部分或替换某些内容。 在实际应用中,应根据项目需求和性能考虑选择合适的过滤方法。如果HTML...

    易语言html元素过滤

    具体到实现细节,"易语言html元素过滤源码"可能包含了以下几个部分: 1. **HTML文件读取**:利用易语言的文件操作函数读取本地或远程的HTML文件。 2. **XMLhttp请求**:使用易语言的网络组件,创建XMLhttp请求,设置...

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将详细解释C#中用于过滤HTML标签的几种方法,并对每一步进行深入解析。此过程涉及正则表达式、字符串替换以及HTML实体编码转换等技术细节。 ### C#过滤HTML标签的方法 #### 方法一:使用...

    过滤HTML标签类

    在IT行业中,过滤HTML标签是常见的数据处理任务,特别是在处理用户输入、数据分析或者网页抓取时。这个主题的标题“过滤HTML标签类”暗示我们将会探讨一个专门用于去除或处理HTML标签的类或库。这类工具通常用于确保...

    HTML代码过滤技术

    总的来说,HTML代码过滤技术是网络安全的重要组成部分,它通过对HTML内容的智能分析和处理,有效防止了恶意代码的传播,保护了用户的隐私和系统的安全。在实际应用中,需要结合具体场景选择合适的过滤策略和技术,以...

    易语言HTML过滤

    通过解析和遍历HTML文档,我们可以筛选出需要的部分,而忽略其余内容。 在易语言中实现HTML过滤,通常涉及到以下几个核心概念: 1. **字符串操作**:易语言提供了丰富的字符串处理函数,如“查找”、“替换”等,...

    java正则表达式过滤html标签

    ### Java正则表达式过滤HTML标签 在处理文本数据时,经常会遇到需要从HTML文档中提取纯文本内容的需求。为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍...

    wxParse过滤HTML标签.rar

    "wxParse过滤HTML标签.rar"就是为了解决这个问题而提供的一个解决方案。 wxParse是一个强大的微信小程序富文本解析插件,它能够帮助开发者将HTML内容转换成小程序可以识别和渲染的格式。主要目标是过滤掉HTML标签,...

    html中嵌入vue3框架模板(过滤案例)

    这通常在HTML的`&lt;head&gt;`部分完成,例如: ```html &lt;!DOCTYPE html&gt; &lt;html lang="zh"&gt; , initial-scale=1.0"&gt; &lt;title&gt;Vue3 HTML嵌入 &lt;script src="https://unpkg.com/vue@next"&gt;&lt;/script&gt; &lt;!-- Vue3应用...

    App_Code生成静态过滤html代码操作sql

    2. **过滤HTML代码**:过滤HTML代码是为了防止跨站脚本攻击(XSS)。这可以通过以下方式实现: - 使用Html Agility Pack库解析和操作HTML字符串,移除或转义可能的恶意脚本。 - 使用ASP.NET的内置验证控件和...

    过滤html的标签

    用于过滤html的标签,应用java语言,提取html中文本的部分

    java的xxsProtect过滤xss

    - **HTML标签检测**: 过滤器会检查输入字符串中是否包含HTML标签,如`&lt;script&gt;`, `&lt;iframe&gt;`, `&lt;img&gt;`等,这些标签通常被用于XSS攻击。如果发现这些标签,过滤器会采取相应的措施,如删除、替换或转义,以确保它们...

    Android-HTML::Pipeline-HTML处理过滤器和工具类

    在Android开发中,HTML::Pipeline是一个用于处理和过滤HTML内容的工具类库。这个库的主要目的是将HTML源码转换为更便于操作的数据结构,比如Markdown或者其他格式,以便于在应用程序中进行显示、存储或者进一步处理...

    易语言源码易语言html元素过滤源码.rar

    易语言html元素过滤源码可能包含以下几个部分: 1. HTML解析模块:这部分代码负责将HTML字符串转化为可操作的数据结构,如树形结构,便于遍历和访问各个元素。 2. 元素匹配规则:定义了需要过滤的HTML元素特征,...

    JavaWeb页面过滤器之编码过滤

    综上所述,JavaWeb页面过滤器之编码过滤是确保Web应用正常运行,特别是处理中文字符时不可或缺的一部分。通过理解其原理和实现,开发者可以更好地控制和优化Web应用的字符编码,从而提供更高质量的服务。在MyEclipse...

    正则过滤html

    在IT领域,尤其是在数据处理和网页解析中,"正则过滤HTML"是一个常见的任务,它涉及到文本处理、正则表达式以及HTML的理解。这个任务的主要目的是通过正则表达式从HTML源码中提取或移除特定的信息,例如标签、属性、...

    易语言源码易语言HTML源码过滤.rar

    例如,我们可以使用“查找字符串”函数来寻找特定的HTML标签,然后通过“替换字符串”函数删除或替换不需要的部分。对于嵌套标签的处理,可以利用循环和递归等编程结构来实现。 在本压缩包中的"易语言HTML源码过滤...

    java使用正则表达式过滤html标签

    标题“java使用正则表达式过滤html标签”意味着文章的主题是关于如何使用Java编程语言结合正则表达式来清除或处理HTML标签,这是在处理Web开发中经常会遇到的需求。描述中提到,文章将介绍这一技术,并希望读者通过...

    页面内容的选择过滤方法

    在`testTable1.html`中,可能还会有其他的HTML元素,如按钮或下拉菜单,用来触发过滤操作。同时,CSS(Cascading Style Sheets)可能被用来美化过滤后的表格样式,使其更具可读性。 总的来说,"页面内容的选择过滤...

    AngularJS过滤器filter

    总结,AngularJS的过滤器是其强大功能的一部分,帮助开发者轻松地处理和展示数据。无论是内置过滤器还是自定义过滤器,都能显著提升应用的交互性和用户体验。通过深入理解过滤器的工作原理和用法,我们可以更好地...

Global site tag (gtag.js) - Google Analytics