引用 http://www.javaresearch.org/article/82778.htm
- import java.io.BufferedReader;
- import java.io.FileNotFoundException;
- import java.io.FileReader;
- import java.io.IOException;
- import java.util.regex.Matcher;
- import java.util.regex.Pattern;
- public class LinkerFinder {
- public static void main(String [] args)
- {
- String regStr="<a\\s+href\\s*=\\s*"//<a href=
- +"(\"[^\"]*\"|[^\\s]*)\\s*" //URL部分
- +"(target=\\s*(\"[^\"]*\"|[^\\s]*))?>";//target部分
- StringBuffer sb=new StringBuffer();
-
- try {
- FileReader fr = new FileReader("111.htm");
- BufferedReader br=new BufferedReader(fr);
- String line;
- while((line=br.readLine())!=null)
- {
- sb.append(line);
- }
- br.close();
- fr.close();
- Pattern ptn=Pattern.compile(regStr,Pattern.CASE_INSENSITIVE);
- Matcher matcher=ptn.matcher(sb);
- while(matcher.find())
- {
- int start=matcher.start();
- int end=matcher.end();
- String url=sb.substring(start,end);
- System.out.println(url);
- }
- } catch (FileNotFoundException e) {
- // TODO 自动生成 catch 块
- e.printStackTrace();
- } catch (IOException e) {
- // TODO 自动生成 catch 块
- e.printStackTrace();
- }
- }
- }
以上只是个例子,希望能给大家带来些启发.
分享到:
相关推荐
java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的
正则表达式(Regular Expression)是一种模式匹配语言,通过特定的语法来描述字符串的模式,用于在文本中寻找符合该模式的字符串。 1. **基本概念与用途** - 正则表达式主要用途包括字符串匹配、查找和替换。 - ...
本次将详细解析如何利用Visual Basic(VB)结合正则表达式来高效地从网页中抽取链接信息。这不仅适用于自动化网络爬虫,也广泛应用于数据挖掘、内容分析等场景。 ### 标题解读:“VB用正则表达式提取网页中的链接”...
### ASP.NET 中使用正则表达式提取 HTML 代码内的图片路径 #### 背景介绍 在 Web 开发中,经常需要处理 HTML 文档或字符串,例如从网页中提取特定的信息,比如图片链接等。ASP.NET 是一种广泛使用的 Web 应用开发...
在实际使用中,正则表达式的作用广泛且强大。以下是一些关键知识点: 1. **基本元素**:正则表达式由基本字符组成,如字母、数字、空格等。此外,还包含一些特殊字符,如`.`(匹配任意字符,除了换行符)、`*`...
例如,可以使用正则表达式验证邮箱格式,或者从HTML源代码中提取链接。 总的来说,掌握Java中的正则表达式不仅可以提高代码的灵活性,还能提升处理字符串问题的效率。学习正则表达式的语法和用法,结合实际编程实践...
例如,如果你想要从HTML中提取所有链接(`<a>`标签),你可以使用正则表达式`[^>]*href="([^"]*)"[^>]*>`。这个表达式会匹配`<a>`标签,并捕获`href`属性的值。 以下是一个简单的代码示例: ```objc NSString *...
通过这个HTML教程,你将学习如何在Java中构建和使用正则表达式,包括基础语法、高级特性和实际应用案例。目录结构将帮助你系统地了解每个主题,逐步提升你的正则表达式技能。无论是初学者还是有经验的开发者,都能...
在C#中,可以使用System.Text.RegularExpressions命名空间中的Regex类来进行正则表达式的操作,包括匹配、查找、替换等。 4. **网络请求**: 在C#中,可以使用HttpClient类来发送HTTP请求,获取网页内容。例如,...
使用JS正则表达式,选取video元素的src属性的值,利用jQuery选取元素
在JavaScript中,正则表达式是通过构造函数`RegExp`来创建的,或者直接在字符串中使用斜杠`/`进行定义。例如,要创建一个匹配数字的正则表达式,可以写成`/^\d+$/`,其中`^`表示字符串的开始,`\d`代表数字字符,`+`...
RegexApplication/Default.aspx 正则表达式类的应用 RegexApplication/GetPageHtmlData.aspx 获取网页的内容 第10章(/10/) ASPNETValidator/Compare.aspx 比较验证 ASPNETValidator/...
在本项目中,我们将使用它来向猫眼网站发送GET请求,获取HTML页面内容。例如: ```python import requests url = 'https://maoyan.com/board/4' response = requests.get(url) html_content = response.text ``` ...
根据提供的标题、描述以及部分内文,我们可以整理出一系列与正则表达式相关的知识点,这些知识点主要涵盖了在软件开发过程中常见的验证和匹配需求。 ### 常用正则表达式 #### 1. 匹配中文字符 **正则表达式**: `[\...
对于文本内容验证,可以使用正则表达式来匹配邮箱地址或验证日期格式,以及提取源代码中的链接或链接文字。 正则表达式还支持判断标签是否闭合,提取指定标签的内容,判断是否为数字与字母的混合,以及同时匹配空格...
例如,你可以使用正则表达式来验证邮箱地址的格式,或者从HTML代码中提取链接。 然而,提供的文件列表如"Yes Prime Minister S06E01 (15th January 2013)[PDTV(XviD)].英文.ass"等似乎属于字幕文件或文本文件,这些...
【正则表达式新闻抓取程序】是一种利用特定的规则(正则表达式)来从网页中筛选并提取新闻信息的软件工具。该程序的主要功能是根据用户设定的抓取源,即目标网站URL,以及定义好的标题正则表达式,自动地在网络上...
总结一下,本例展示了如何使用Java的正则表达式来从HTML文本中提取链接地址。通过理解正则表达式的结构和Java的`Pattern`与`Matcher`类的用法,我们可以灵活地处理各种文本数据,进行复杂的查找和匹配操作。在实际...
在本案例中,我们关注的是如何使用C#编程语言来编写正则表达式,从HTML文档中提取所有的电子邮件地址。下面将详细阐述这个过程。 首先,电子邮件地址通常遵循一定的格式,例如`username@example.com`。一个基本的...
正则表达式可以用于从动态页面的源代码中提取特定部分,例如标题、正文或图片链接。例如,`(.*?)<\/title>`可以用于提取页面的标签内容。 3. **URL重写** 使用如Apache或Nginx等服务器的URL重写规则,可以将用户...