0 0

正则表达式--急--关于html内容提起25

我想通过java正则表达式抽取网页内容的所有链接-还有其锚文本。
链接包括js脚本,,下面是heritrix抽取外链的正则表达式,但是他不能抽取出外链的锚文本,,,急求解决办法(单标签就忽略,双标签要把链接的抽取出来的同时锚文本也要抽取出来)Heritrix抽取外链的正则表达式


"(?is)\\b((href)|(action)|(on\\w*)"
     +"|((?:src)|(?:lowsrc)|(?:background)|(?:cite)|(?:longdesc)"
     +"|(?:usemap)|(?:profile)|(?:datasrc))"
     +"|(codebase)|((?:classid)|(?:data))|(archive)|(code)"
     +"|(value)|(style)|(method)"
     +"|([-\\w]{1,"+MAX_ATTR_NAME_LENGTH+"}))"
     +"\\s*=\\s*"
     +"(?:(?:\"(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:\"|$))"
     +"|(?:'(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:'|$))"
     +"|(\\S{1,"+MAX_ATTR_VAL_LENGTH+"}))"

 

2012年3月09日 22:50
  • 大小: 192 KB

3个答案 按时间排序 按投票排序

0 0

看错了,上边的写法是错误的,见谅。不过我试了一下,可以抽取到一般的锚文本的。你把你不能抽取到的文本的例子写出来,这样好解决。

2012年3月12日 10:05
0 0

"(?is)|((href)|(action)|(on\\w*)"
     +"|((?:src)|(?:lowsrc)|(?:background)|(?:cite)|(?:longdesc)"
     +"|(?:usemap)|(?:profile)|(?:datasrc))"
     +"|(codebase)|((?:classid)|(?:data))|(archive)|(code)"
     +"|(value)|(style)|(method)"
     +"|([-\\w]{1,"+MAX_ATTR_NAME_LENGTH+"}))"
     +"\\s*=\\s*"
     +"(?:(?:\"(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:\"|$))"
     +"|(?:'(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:'|$))"
     +"|(\\S{1,"+MAX_ATTR_VAL_LENGTH+"}))"
试试看

2012年3月12日 09:31
0 0

不会正则

2012年3月11日 11:44

相关推荐

    常用正则表达式-常用正则表达式-常用正则表达式

    常用正则表达式-常用正则表达式-常用正则表达式 常用正则表达式-常用正则表达式-常用正则表达式

    提取URL,正则表达式 - C# - 开发者参考网

    提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,...

    Java正则表达式详解-软件频道-正则表达式-天极网

    Java正则表达式详解-软件频道-正则表达式-天极网

    Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码

    Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三...

    EXCEL-VBA-正则表达式-从实例开始.docx

    ### EXCEL-VBA-正则表达式-从实例开始 #### 一、正则表达式基础知识 正则表达式(Regular Expression),简称“regex”或“regexp”,是一种强大的文本模式匹配工具,广泛应用于多种编程语言中,用于进行复杂的...

    java-正则表达式-分组引用介绍

    - **分组**:使用圆括号`()`将正则表达式的一部分内容括起来形成一个分组。 - **分组编号**:每个分组都会自动获得一个编号,从左到右依次为1,2,3,...。例如,`(abc)(def)`中有两个分组,第一个分组是`abc`,编号为1...

    linux系统shell正则表达式-练习工具和教材

    在IT领域,Linux系统Shell和正则表达式是两个至关重要的工具,它们在日常的系统管理、数据分析和脚本编写中发挥着巨大的作用。本文将深入探讨Linux Shell下的正则表达式,包括其基本概念、元字符、模式匹配以及常用...

    超强过滤广告正则表达式---by闻仲

    广告过滤正则式 来自闻仲 可以和大家交流一下

    正则表达式-入门培训

    ### 正则表达式入门培训知识点详解 #### 一、正则表达式概念与应用场景 **定义**: 正则表达式是一种模式匹配工具,用于在文本数据中查找、替换或提取符合特定规则的字符串。它由一系列特殊字符组成,通过这些字符...

    [JAVA源码]捣鼓生成浮点数的最小最大值的正则表达式---by_langx

    在Java编程中,正则表达式(Regular Expression)是一种强大的文本处理工具,它能用于匹配、查找、替换等操作。本话题聚焦于如何利用Java来生成一个正则表达式,这个表达式能够验证一个字符串是否代表了在特定范围内...

    正则表达式 - 语法.docx

    python 正则表达式 正则表达式 - 语法.docx

    正则表达式---------资料整理,适合新手学习使用,对正则表达式的学习很有帮助

    正则表达式知识点总结 正则表达式是强大的字符串匹配模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。下面是正则表达式的基本概念和运用方法: 1. 正则...

    正则表达式--测试工具

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串模式。它在编程、数据分析和文本编辑等领域有着广泛的应用。"正则表达式--测试工具" 是一个专为验证和调试正则表达式设计的软件,无需安装,...

    正则表达式-文档和网页

    - **HTML 与 XML 标签处理**: 可以用正则表达式匹配和提取 HTML 或 XML 标签,进行解析和清洗。 - **爬虫与数据提取**: 在网络爬虫中,正则表达式是抓取网页数据的重要工具,例如,使用 `\d+` 提取网页上的价格...

    正则表达式--ppt课件

    关于正则表达式一个ppt课件,适合初学者,介绍的很详细,欢迎收藏

    正则表达式大全 - 收集的最常用正则表达式

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过预定义的模式来识别和操作字符串中的数据。以下是一些常见的正则表达式及其用途: 1. 匹配中文字符:`[u4e00-u9fa5]` - 这个正则...

    精通正则表达式-Jeffery E.F.Fridel著

    《精通正则表达式》是Jeffery E.F. Friedl所著的一本经典书籍,它深入浅出地探讨了正则表达式的...《精通正则表达式》这本书深入细致地讲解了这些内容,对于想深入了解正则表达式的读者来说,是一本不可多得的参考书。

    正则表达式-本文详细地列出了能在正则表达式中使用,以匹配文本的各种字符

    正则表达式----正则表达式就是由普通字符(例如字符 a 到 z ) 以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索...

    java正则表达式----pdf文档 简明扼要

    ### Java正则表达式的应用与理解 #### 一、引言 正则表达式作为一种强大的字符串处理工具,自诞生以来就在计算机科学领域扮演着至关重要的角色。最初由数学家Stephen Kleene提出,正则表达式逐渐发展成为一种普遍...

    正则表达式-Eclipse插件

    可用于Eclipse的正则表达式插件,要求已安装JVM

Global site tag (gtag.js) - Google Analytics