`

使用正则表达式来获取HTML中的链接

阅读更多

引用 http://www.javaresearch.org/article/82778.htm

 

  1. import java.io.BufferedReader;
  2. import java.io.FileNotFoundException;
  3. import java.io.FileReader;
  4. import java.io.IOException;
  5. import java.util.regex.Matcher;
  6. import java.util.regex.Pattern;
  7. public class LinkerFinder {
  8.     public static void main(String [] args)
  9.     {
  10.         String regStr="<a\\s+href\\s*=\\s*"//<a href=
  11.             +"(\"[^\"]*\"|[^\\s]*)\\s*" //URL部分
  12.             +"(target=\\s*(\"[^\"]*\"|[^\\s]*))?>";//target部分
  13.         StringBuffer sb=new StringBuffer();
  14.         
  15.         try {
  16.             FileReader fr = new FileReader("111.htm");
  17.             BufferedReader br=new BufferedReader(fr);
  18.             String line;
  19.             while((line=br.readLine())!=null)
  20.             {
  21.                 sb.append(line);
  22.             }
  23.             br.close();
  24.             fr.close();
  25.             Pattern ptn=Pattern.compile(regStr,Pattern.CASE_INSENSITIVE);
  26.             Matcher matcher=ptn.matcher(sb);
  27.             while(matcher.find())
  28.             {
  29.                 int start=matcher.start();
  30.                 int end=matcher.end();
  31.                 String url=sb.substring(start,end);
  32.                 System.out.println(url);
  33.             }
  34.         } catch (FileNotFoundException e) {
  35.             // TODO 自动生成 catch 块
  36.             e.printStackTrace();
  37.         } catch (IOException e) {
  38.             // TODO 自动生成 catch 块
  39.             e.printStackTrace();
  40.         }
  41.     }
  42. }



以上只是个例子,希望能给大家带来些启发.

分享到:
评论

相关推荐

    java正则表达式提取html中的信息

    java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的

    Java正则表达式 Java 正则表达式

    正则表达式(Regular Expression)是一种模式匹配语言,通过特定的语法来描述字符串的模式,用于在文本中寻找符合该模式的字符串。 1. **基本概念与用途** - 正则表达式主要用途包括字符串匹配、查找和替换。 - ...

    VB用正则表达式提取网页中的链接

    本次将详细解析如何利用Visual Basic(VB)结合正则表达式来高效地从网页中抽取链接信息。这不仅适用于自动化网络爬虫,也广泛应用于数据挖掘、内容分析等场景。 ### 标题解读:“VB用正则表达式提取网页中的链接”...

    asp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txt

    ### ASP.NET 中使用正则表达式提取 HTML 代码内的图片路径 #### 背景介绍 在 Web 开发中,经常需要处理 HTML 文档或字符串,例如从网页中提取特定的信息,比如图片链接等。ASP.NET 是一种广泛使用的 Web 应用开发...

    正则表达式综合练习

    在实际使用中,正则表达式的作用广泛且强大。以下是一些关键知识点: 1. **基本元素**:正则表达式由基本字符组成,如字母、数字、空格等。此外,还包含一些特殊字符,如`.`(匹配任意字符,除了换行符)、`*`...

    Java中如何使用正则表达式

    例如,可以使用正则表达式验证邮箱格式,或者从HTML源代码中提取链接。 总的来说,掌握Java中的正则表达式不仅可以提高代码的灵活性,还能提升处理字符串问题的效率。学习正则表达式的语法和用法,结合实际编程实践...

    objc使用正则表达式

    例如,如果你想要从HTML中提取所有链接(`&lt;a&gt;`标签),你可以使用正则表达式`[^&gt;]*href="([^"]*)"[^&gt;]*&gt;`。这个表达式会匹配`&lt;a&gt;`标签,并捕获`href`属性的值。 以下是一个简单的代码示例: ```objc NSString *...

    java正则表达式教程html版带目录

    通过这个HTML教程,你将学习如何在Java中构建和使用正则表达式,包括基础语法、高级特性和实际应用案例。目录结构将帮助你系统地了解每个主题,逐步提升你的正则表达式技能。无论是初学者还是有经验的开发者,都能...

    C#.Net使用正则表达式抓取百度百家文章列表

    在C#中,可以使用System.Text.RegularExpressions命名空间中的Regex类来进行正则表达式的操作,包括匹配、查找、替换等。 4. **网络请求**: 在C#中,可以使用HttpClient类来发送HTTP请求,获取网页内容。例如,...

    JS正则表达式的使用以video标签为例

    使用JS正则表达式,选取video元素的src属性的值,利用jQuery选取元素

    正则表达式JS与JAVA的简单入门应用

    在JavaScript中,正则表达式是通过构造函数`RegExp`来创建的,或者直接在字符串中使用斜杠`/`进行定义。例如,要创建一个匹配数字的正则表达式,可以写成`/^\d+$/`,其中`^`表示字符串的开始,`\d`代表数字字符,`+`...

    精通正则表达式基于.NET ASP PHP JSP JavaScript

    RegexApplication/Default.aspx 正则表达式类的应用 RegexApplication/GetPageHtmlData.aspx 获取网页的内容 第10章(/10/) ASPNETValidator/Compare.aspx 比较验证 ASPNETValidator/...

    Python-使用正则表达式和requests抓取猫眼TOP100的电影信息

    在本项目中,我们将使用它来向猫眼网站发送GET请求,获取HTML页面内容。例如: ```python import requests url = 'https://maoyan.com/board/4' response = requests.get(url) html_content = response.text ``` ...

    常用正则表达式(经验积累)

    根据提供的标题、描述以及部分内文,我们可以整理出一系列与正则表达式相关的知识点,这些知识点主要涵盖了在软件开发过程中常见的验证和匹配需求。 ### 常用正则表达式 #### 1. 匹配中文字符 **正则表达式**: `[\...

    经典JavaScript正则表达式实战

    对于文本内容验证,可以使用正则表达式来匹配邮箱地址或验证日期格式,以及提取源代码中的链接或链接文字。 正则表达式还支持判断标签是否闭合,提取指定标签的内容,判断是否为数字与字母的混合,以及同时匹配空格...

    Java 用正则表达式作文本处理

    例如,你可以使用正则表达式来验证邮箱地址的格式,或者从HTML代码中提取链接。 然而,提供的文件列表如"Yes Prime Minister S06E01 (15th January 2013)[PDTV(XviD)].英文.ass"等似乎属于字幕文件或文本文件,这些...

    正则表达式新闻抓取程序

    【正则表达式新闻抓取程序】是一种利用特定的规则(正则表达式)来从网页中筛选并提取新闻信息的软件工具。该程序的主要功能是根据用户设定的抓取源,即目标网站URL,以及定义好的标题正则表达式,自动地在网络上...

    写出正则表达式,从一个字符串中提取链接地址.docx

    总结一下,本例展示了如何使用Java的正则表达式来从HTML文本中提取链接地址。通过理解正则表达式的结构和Java的`Pattern`与`Matcher`类的用法,我们可以灵活地处理各种文本数据,进行复杂的查找和匹配操作。在实际...

    正则表达式提取html中的所有的Email地址

    在本案例中,我们关注的是如何使用C#编程语言来编写正则表达式,从HTML文档中提取所有的电子邮件地址。下面将详细阐述这个过程。 首先,电子邮件地址通常遵循一定的格式,例如`username@example.com`。一个基本的...

    页面静态化的正则表达式

    正则表达式可以用于从动态页面的源代码中提取特定部分,例如标题、正文或图片链接。例如,`(.*?)&lt;\/title&gt;`可以用于提取页面的标签内容。 3. **URL重写** 使用如Apache或Nginx等服务器的URL重写规则,可以将用户...

Global site tag (gtag.js) - Google Analytics