`
lzj0470
  • 浏览: 1276927 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

去除注释 去script

    博客分类:
  • js
阅读更多
使用正则表达式及字符串操作,抽取网页信息,实现代码如下:  /* 去script */  public static String trimScript(String content) {  String regEx = "<script[^>]*>[^<]+</script>";  Pattern ...
       使用正则表达式及字符串操作,抽取网页信息,实现代码如下:
  /* 去script */
  public static String trimScript(String content) {
  String regEx = "<script[^>]*>[^<]+</script>";
  Pattern p = Pattern.compile(regEx);
  Matcher m = p.matcher(content);
  String result = content;
  if (m.find()) {
  result = m.replaceAll("");
  }
  return result;
  }
  /* 去除注释*/
  public static String trimComment(String content) {
  String regEx = "<!--[^-]*-->";
  Pattern p = Pattern.compile(regEx);
  Matcher m = p.matcher(content);
  String result = content;
  if (m.find()) {
  result = m.replaceAll("");
  }
  return result;
  }
  /* 去除标签 */
  public static String trimTag(String content) {
  String regEx = "<[^>]+>";
  Pattern p = Pattern.compile(regEx);
  Matcher m = p.matcher(content);
  String result = content;
  if (m.find()) {
  result = m.replaceAll("");
  }
  result = result.replace(" ", "").replace(">", "").replace(
  ">", "");
  return result;
  }
  /* 根据起始位置和结束位置,考试.大提示截取字符串 */
  public static String subString(String start, String end, String content) {
  int iStart = content.indexOf(start);
  int iEnd = content.indexOf(end);
  if (iStart < iEnd) {
  return content.substring(iStart, iEnd);
  }
  return null;
  }
<!---->
分享到:
评论
1 楼 kettas 2010-08-07  
顶,不错,我cao  太有用了。楼主,标记一下收藏

相关推荐

    javascript去掉代码里面的注释

    代码很简单,主要是使用正则来实现,直接奉上代码 ... // 去除注释后的文本 return /^\/{2,}/.test(word) || /^\/\*/.test(word) ? : word; }); 以上所述就是本文的全部内容了,希望大家能够喜欢。

    php使用正则表达式去掉html中的注释方法

    --ceshi//--&gt;&lt;/script&gt;`这样的情况,我们需要确保不删除那些存在于`&lt;script&gt;`标签内的`//`单行注释。为此,我们需要避免在`--&gt;`之前匹配到`//`,可以使用否定前瞻断言(negative lookahead assertion)来实现: ```...

    strip-comment:去除 js、css 或 html 注释

    去除 js、css 和 html 注释。 安装 npm install strip-comment --save 测试 mocha 演示 &lt; style &gt; p { color : red; /* Css line comment */ text-align : center; } /* * Css block comment */ &lt;...

    C# 过滤HTML标签的几种方法

    3. **去除空格和注释**: ```csharp Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"--&gt;", "", RegexOptions.IgnoreCase);...

    javascript匹配js中注释的正则表达式代码

    有时候我们需要将js的注释去掉,减少代码中的冗余,有时候注释太多导致页面体积大。 注释图示如下: 一.匹配多行注释正则表达式: /(?:^|\n|\r)\s*\/\*[\s\S]*?\*\/\s*(?:\r|\n|$)/g 二.单行注释正则表达式: /(?:^|...

    php正则去除网页中所有的html,js,css,注释的实现方法

    在处理网页内容时,我们经常需要去除其中的HTML、JavaScript、CSS以及注释部分,以获取纯文本内容或者清理数据。在PHP中,我们可以通过使用正则表达式来实现这一目标。接下来,我们将详细介绍如何使用PHP正则表达式...

    使用正则表达式去除所有html标签只保留文字

    例如,脚本`&lt;script&gt;`、样式`&lt;style&gt;`以及注释`&lt;!-- --&gt;`内的内容可能会被错误地移除或保留。 此外,正则表达式匹配时的贪婪模式和非贪婪模式对于匹配的结果有着决定性的作用。在上述示例中,使用了非贪婪的懒惰...

    c#里去掉html标记

    - `aryReg` 数组包含了用于匹配HTML标签、特殊字符以及注释的多个正则表达式。 - `aryRep` 数组与之对应,存储了替换后的字符串或字符。 2. **处理过程**: - 对于每个正则表达式,创建一个 `Regex` 对象,并...

    c# 正则表达式对网页进行内容抓取_.docx

    1. **去除HTML注释**: 使用`&lt;!--[^-]*--&gt;`这个正则表达式可以匹配并移除HTML注释。`&lt;!--`和`--&gt;`是HTML注释的开始和结束标签,`[^-]*`表示匹配任何非负号字符(防止在注释中提前结束匹配)。 2. **去除JavaScript...

    去掉Html页中的标签代码

    描述中的“去除Html页中标签的代码,用法很简单,很实用”表明这是一个简单易用的函数,能够快速有效地从HTML字符串中移除所有相关的HTML标签,生成一个只包含文本内容的结果。 标签“去掉”、“Html”和“标签”...

    c# 正则表达式对网页进行有效内容抽取

    将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @”&lt;!–[^-]*–&gt;”, string.Empty, RegexOptions.IgnoreCase); 2.去script,正则为: ouput...

    清除字符串中的html标记

    &lt;/script&gt;`来移除所有的`&lt;script&gt;`标签及其内容。这一步非常重要,因为脚本标签可能会包含恶意代码或不需要执行的JavaScript代码。 2. **移除HTML标签**:接下来,使用正则表达式`&lt;(.[^&gt;]*)&gt;`来匹配并移除所有HTML...

    vb Script参考文档

    Rem 语句 包含程序中的注释。 Replace 函数 返回一个字符串,其中某个指定的子串被另一个子串替换,替换的次数也有规定。 Replace 方法 替换在正则表达式搜索中已发现的正文。 RGB 函数 返回表示 RGB 颜色值的数...

    使用javascript过滤html的字符串(注释标记法)

    这个函数接收三个参数:`str`是待处理的HTML字符串,`begin`和`end`分别是需要去除的注释开始和结束标记。函数的目的是删除所有匹配`begin`和`end`之间内容的注释。 1. 函数首先使用`replace()`方法尝试移除第一次...

    asp中去除html中style,javascript,css代码

    1. 匹配JavaScript代码的`&lt;script&gt;`标签:`&lt;script[^&gt;]*?&gt;.*?&lt;/script&gt;`。这个模式匹配任意属性的`&lt;script&gt;`标签和它的内容,直到结束标签。 2. 匹配CSS样式的`&lt;style&gt;`标签:`[^&gt;]*?&gt;.*?&lt;/style&gt;`。这个模式匹配...

    正则表达式清除html标签

    - 这条规则的目标是删除所有的 `&lt;script&gt;` 标签及其内容。 - `[^&gt;]*?` 表示匹配任何非 `&gt;` 字符直到找到闭合标签。 - `.*?` 匹配脚本标签内的任意内容。 - `RegexOptions.IgnoreCase` 使得匹配不区分大小写。 2...

    CnPlugin_1.5.4

    CnPlugin / Comment /&Uncommnet Lines 去除当前选中以“--”注释的代码 CnPlugin / &ReConnect 重连中断的数据库连接 CnPlugin / &ExPaste 对当前选中或剪贴板内空格式化为IN 字符串,如格式化字符串AA,BB,CC为...

Global site tag (gtag.js) - Google Analytics