-
正则表达式--急--关于html内容提起25
我想通过java正则表达式抽取网页内容的所有链接-还有其锚文本。
链接包括js脚本,,下面是heritrix抽取外链的正则表达式,但是他不能抽取出外链的锚文本,,,急求解决办法(单标签就忽略,双标签要把链接的抽取出来的同时锚文本也要抽取出来)
"(?is)\\b((href)|(action)|(on\\w*)"
+"|((?:src)|(?:lowsrc)|(?:background)|(?:cite)|(?:longdesc)"
+"|(?:usemap)|(?:profile)|(?:datasrc))"
+"|(codebase)|((?:classid)|(?:data))|(archive)|(code)"
+"|(value)|(style)|(method)"
+"|([-\\w]{1,"+MAX_ATTR_NAME_LENGTH+"}))"
+"\\s*=\\s*"
+"(?:(?:\"(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:\"|$))"
+"|(?:'(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:'|$))"
+"|(\\S{1,"+MAX_ATTR_VAL_LENGTH+"}))"2012年3月09日 22:50
3个答案 按时间排序 按投票排序
-
"(?is)|((href)|(action)|(on\\w*)"
+"|((?:src)|(?:lowsrc)|(?:background)|(?:cite)|(?:longdesc)"
+"|(?:usemap)|(?:profile)|(?:datasrc))"
+"|(codebase)|((?:classid)|(?:data))|(archive)|(code)"
+"|(value)|(style)|(method)"
+"|([-\\w]{1,"+MAX_ATTR_NAME_LENGTH+"}))"
+"\\s*=\\s*"
+"(?:(?:\"(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:\"|$))"
+"|(?:'(.{0,"+MAX_ATTR_VAL_LENGTH+"}?)(?:'|$))"
+"|(\\S{1,"+MAX_ATTR_VAL_LENGTH+"}))"
试试看2012年3月12日 09:31
相关推荐
常用正则表达式-常用正则表达式-常用正则表达式 常用正则表达式-常用正则表达式-常用正则表达式
提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,...
Java正则表达式详解-软件频道-正则表达式-天极网
Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三...
### EXCEL-VBA-正则表达式-从实例开始 #### 一、正则表达式基础知识 正则表达式(Regular Expression),简称“regex”或“regexp”,是一种强大的文本模式匹配工具,广泛应用于多种编程语言中,用于进行复杂的...
- **分组**:使用圆括号`()`将正则表达式的一部分内容括起来形成一个分组。 - **分组编号**:每个分组都会自动获得一个编号,从左到右依次为1,2,3,...。例如,`(abc)(def)`中有两个分组,第一个分组是`abc`,编号为1...
在IT领域,Linux系统Shell和正则表达式是两个至关重要的工具,它们在日常的系统管理、数据分析和脚本编写中发挥着巨大的作用。本文将深入探讨Linux Shell下的正则表达式,包括其基本概念、元字符、模式匹配以及常用...
广告过滤正则式 来自闻仲 可以和大家交流一下
### 正则表达式入门培训知识点详解 #### 一、正则表达式概念与应用场景 **定义**: 正则表达式是一种模式匹配工具,用于在文本数据中查找、替换或提取符合特定规则的字符串。它由一系列特殊字符组成,通过这些字符...
在Java编程中,正则表达式(Regular Expression)是一种强大的文本处理工具,它能用于匹配、查找、替换等操作。本话题聚焦于如何利用Java来生成一个正则表达式,这个表达式能够验证一个字符串是否代表了在特定范围内...
python 正则表达式 正则表达式 - 语法.docx
正则表达式知识点总结 正则表达式是强大的字符串匹配模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。下面是正则表达式的基本概念和运用方法: 1. 正则...
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串模式。它在编程、数据分析和文本编辑等领域有着广泛的应用。"正则表达式--测试工具" 是一个专为验证和调试正则表达式设计的软件,无需安装,...
- **HTML 与 XML 标签处理**: 可以用正则表达式匹配和提取 HTML 或 XML 标签,进行解析和清洗。 - **爬虫与数据提取**: 在网络爬虫中,正则表达式是抓取网页数据的重要工具,例如,使用 `\d+` 提取网页上的价格...
关于正则表达式一个ppt课件,适合初学者,介绍的很详细,欢迎收藏
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过预定义的模式来识别和操作字符串中的数据。以下是一些常见的正则表达式及其用途: 1. 匹配中文字符:`[u4e00-u9fa5]` - 这个正则...
《精通正则表达式》是Jeffery E.F. Friedl所著的一本经典书籍,它深入浅出地探讨了正则表达式的...《精通正则表达式》这本书深入细致地讲解了这些内容,对于想深入了解正则表达式的读者来说,是一本不可多得的参考书。
正则表达式----正则表达式就是由普通字符(例如字符 a 到 z ) 以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索...
### Java正则表达式的应用与理解 #### 一、引言 正则表达式作为一种强大的字符串处理工具,自诞生以来就在计算机科学领域扮演着至关重要的角色。最初由数学家Stephen Kleene提出,正则表达式逐渐发展成为一种普遍...
可用于Eclipse的正则表达式插件,要求已安装JVM