- 两个问题
a. 如何知道一个url是新浪论坛的帖子页
b. 如何提取这些页面的发帖时间
分析:
新浪论坛的帖子页url实例:
http://bbs.2008.sina.com.cn/tableforum/App/view.php?bbsid=274&subid=0&fid=32614&tbid=2351
http://bbs.book.sina.com.cn/tableforum/App/view.php?bbsid=7&subid=1&fid=43640&tbid=5386
http://bbs.book.sina.com.cn/tableforum/App/view.php?bbsid=192&subid=4&fid=10367&tbid=1683
http://bbs.edu.sina.com.cn/tableforum/App/view.php?bbsid=41&subid=2&fid=86455&tbid=4803
发现很有规律。规则差不多是这样:
http://bbs\.[a-zA-Z0-9]+\.sina\.com\.cn/tableforum/App/view.php\?bbsid=[0-9]+&subid=[0-9]+&fid=[0-9]+&tbid=[0-9
]+ (.与?需要转义,写成\.与\?)
发帖时间都这样的:[2008-08-09 14:51:35]
规则:\[ (\d\d\d\d-\d\d-\d\d \d\d:\d\d:\d\d)\]
Regular Expression Syntax
Syntax
Explanation
Characters
|
c
|
The character c
|
\
unnnn
, \
xnn,
\
0n
, \
0nn
, \
0nnn
|
The code unit with the given hex or octal value
|
\
t, \
n, \
r, \
f, \
a, \e
|
The control characters tab, newline, return, form feed, alert, and escape
|
\
cc
|
The control character corresponding to the character c
|
Character Classes
|
[
C
1
C
2
. . .]
|
Any of the characters represented by C
1
, C
2
, . . . The Ci
are characters, character ranges (c
1
-c
2
), or character classes
|
[^
. . .]
|
Complement of character class
|
[
. . . &&
. . .]
|
Intersection of two character classes
|
Predefined Character Classes
|
.
|
Any character except line terminators (or any character if the DOTALL
flag is set)
|
\d
|
A digit [0-9
]
|
\D
|
A nondigit [^0-9
]
|
\s
|
A whitespace character [ \t\n\r\f\x0B
]
|
\S
|
A non-whitespace character
|
\w
|
A word character [a-zA-Z0-9
_]
|
\W
|
A nonword character
|
\p{
name
}
|
A named character class—see Table 12-9
|
\P{
name
}
|
The complement of a named character class
|
Boundary Matchers
|
^ $
|
Beginning, end of input (or beginning, end of line in multiline mode)
|
\b
|
A word boundary
|
\B
|
A nonword boundary
|
Syntax
|
Explanation
|
\A
|
Beginning of input
|
\z
|
End of input
|
\Z
|
End of input except final line terminator
|
\G
|
End of previous match
|
Quantifiers
|
X?
|
Optional X
|
X*
|
X, 0 or more times
|
X
+
|
X, 1 or more times
|
X
{n
} X
{n
,} X
{n,m
}
|
X n
times, at least n
times, between n
and m
times
|
Quantifier Suffixes
|
?
|
Turn default (greedy) match into reluctant match
|
+
|
Turn default (greedy) match into possessive match
|
Set Operations
|
XY
|
Any string from X
, followed by any string from Y
|
X|Y
|
Any string from X
or Y
|
Grouping
|
(X)
|
Capture the string matching X
as a group
|
\
n
|
The match of the n
th group
|
Escapes
|
\
c
|
The character c
(must not be an alphabetic character)
|
\
Q
. . . \E
|
Quote . . . verbatim
|
(?
. . . )
|
Special construct—see API notes of Pattern class
|
从html中去除标签,提取正文的正则表达式:
<script.*?</script>|<style.*?</style>|<!?[a-z]+[^>]*>|</[a-z0-9]+>|<!--.*?-->
上传一个正则表达式测试工具:
分享到:
相关推荐
Java正则表达式是Java编程语言中用于处理字符串的强大工具,它基于模式匹配的概念,能够高效地进行文本搜索、替换和解析。在Java中,正则表达式主要通过`java.util.regex`包来实现,提供了Pattern和Matcher两个核心...
Java正则表达式匹配工具是IT领域中一种强大的文本处理工具,它利用正则表达式(Regular Expression)的规则来查找、替换或者提取文本中的特定模式。正则表达式是一种特殊的字符序列,能够帮助程序员或者用户高效地...
Java正则表达式验证IP地址 Java正则表达式验证IP地址是指使用Java语言中的正则表达式来验证IP地址是否符合标准。IP地址是指在网络通信中用来标识设备的地址,它是一种逻辑地址,通过它可以找到网络中的设备。在...
Java正则表达式是编程语言Java中的一个强大工具,它用于模式匹配、数据验证和文本检索替换。在Java中,正则表达式是通过java.util.regex包提供的接口和类来实现的。`regex-smart.jar`这个库显然是为了简化开发者在...
本篇将围绕“使用Java正则表达式分析处理日志”这一主题,探讨如何利用Java的正则表达式功能来提取、过滤和操作日志数据。 首先,我们需要理解正则表达式的基本概念。正则表达式(Regular Expression)是一种模式...
以下是对这些文档标题所涉及的Java正则表达式知识点的详细解释: 1. **正则表达式之道** 这个主题可能涵盖了正则表达式的基础概念,包括元字符、字符类、量词和分组。元字符如`.`代表任意字符,`^`表示行首,`$`...
Java正则表达式是一种强大的文本处理工具,广泛用于验证字符串、查找特定模式和替换文本。在Java中,正则表达式提供了简洁而灵活的方式来处理字符串,使得编程人员能够以更高效的方式实现各种文本操作。 正则表达式...
Java正则表达式库是Java开发中不可或缺的一部分,它为开发者提供了一种强大的文本匹配工具。在Java中,正则表达式(Regular Expression)是一种模式匹配语言,用于处理字符串操作,如查找、替换或提取特定模式的数据...
Java正则表达式测试工具是面向开发者和爱好者的一款实用程序,它可以帮助用户验证和调试他们的正则表达式。在Java编程环境中,正则表达式是一个强大的字符串处理工具,广泛用于数据验证、文本搜索和替换等任务。这款...
### 使用Java正则表达式实现一个简单的身份证号码验证 #### 一、背景介绍 身份证号码是中国公民的身份标识,由15位或18位数字组成(早期为15位,后改为18位)。其中,第18位是校验码,可能是数字0~9或者大写字母X。...
### 常用Java正则表达式知识点 #### 一、引言 正则表达式是一种强大的工具,用于处理文本并查找模式。多种编程语言,包括Perl、PHP、Python、JavaScript以及Java等均内置了对正则表达式的支持。本文将详细介绍Java...
Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许我们通过模式匹配来查找、替换或分割文本。这个“java正则表达式截取demo”提供了一个可以直接运行的示例,帮助开发者理解如何在Java中使用正则...
Java正则表达式是Java编程语言中的一个强大工具,它用于模式匹配和字符串处理,尤其在数据验证、文本检索和替换等方面发挥着重要作用。本教程是专为初学者设计的HTML版,旨在帮助读者快速掌握Java正则表达式的概念和...
Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许我们通过模式匹配来查找、替换或分割文本。在Android开发中,正则表达式尤其重要,因为它们可以帮助我们验证用户输入、处理文本数据或者进行复杂的...
Java正则表达式是编程语言Java中用于处理字符串和文本的强大工具。它允许开发者通过模式匹配来执行复杂的文本分析和操作。在Java中,正则表达式的操作主要涉及两个核心类:`java.util.regex.Matcher`和`java.util....
Java正则表达式是Java编程语言中用于处理字符串的强大工具,它允许程序员通过模式匹配来查找、替换或分割文本。在Java中,正则表达式是通过`java.util.regex`包提供的API来实现的。本讲解将深入探讨Java正则表达式的...
Java正则表达式是编程语言中的一个重要组成部分,用于文本处理和模式匹配。Jakarta ORO(Oracle Regular Expressions for Java)是Apache软件基金会开发的一个强大的Java正则表达式库,它为开发者提供了更为灵活和...
Java正则表达式 Java 正则表达式 图片版 携带方便,查阅方便!~