Java正则表达式获取网址和链接文字 - - ITeye博客

`

lvlin1983

浏览: 52632 次
性别:
来自: 北京

最近访客更多访客>>

xdonex

pulading1988

YangLovesPortland

spencersweet

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Java正则表达式获取网址和链接文字

正则表达式 Java 百度

阅读更多

public class Test {

      public static void main(String[] args)
      {


          //String s="<p id=km> <a href=http://hi.baidu.com>空间</a> | <a ";
          String s="</p><p style=height:14px><a href=http://jingjia.baidu.com>企业推广</a> | <a href=http://top.baidu.com>搜索风云榜</a> | <a href=/home.html>关于百度</a> | <a href=http://ir.baidu.com>About Baidu</a></p><p id=b>©2008 Baidu <a href=http://www.baidu.com/duty>使用百度前必读</a> <a href=http://www.miibeian.gov.cn target=_blank>京ICP证030173号</a> <a href=http://www.hd315.gov.cn/beian/view.asp?bianhao=010202001092500412><img src=http://gimg.baidu.com/img/gs.gif></a></p></center></body></html>";

           String regex="<a.*?/a>";
          //String regex = "<a.*>(.*)</a>";
          Pattern pt=Pattern.compile(regex);
          Matcher mt=pt.matcher(s);
          while(mt.find())
          {
               System.out.println(mt.group());
               System.out.println();
               String s2=">.*?</a>";//标题部分
               String s3="href=.*?>";

                Pattern pt2=Pattern.compile(s2);
                Matcher mt2=pt2.matcher(mt.group());
                while(mt2.find())
                  {
                 System.out.println("标题："+mt2.group().replaceAll(">|</a>",""));
                }

                Pattern pt3=Pattern.compile(s3);
                Matcher mt3=pt3.matcher(mt.group());
                while(mt3.find())
                  {
                 System.out.println("网址："+mt3.group().replaceAll("href=|>",""));
                }
          }
      }

}

分享到：

Linux 安装 mysql | UltraEdit恢复默认配置

2011-06-13 15:36
浏览 1583
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java正则表达式提取html中的信息: java实现用正则表达式的方法提取html中的信息，可以提取标题，正文，链接等。经过运行，没问题的

java正则表达式匹配网页所有网址和链接文字的示例: 在Java编程中，正则表达式是处理文本模式匹配的强大工具，尤其在处理网页内容时，如提取网址和链接文字。这个示例展示了如何使用Java的正则表达式来匹配网页中的所有网址和链接文字。下面将详细讲解相关知识点。 1....

写出正则表达式，从一个字符串中提取链接地址.docx: 通过理解正则表达式的结构和Java的`Pattern`与`Matcher`类的用法，我们可以灵活地处理各种文本数据，进行复杂的查找和匹配操作。在实际开发中，这样的技能对于数据抓取、文本分析和信息提取等领域至关重要。

正则表达式: 这样说来,正则表达式/java/就和所有包含子串 "java" 的字符串相匹配.虽然正则表达式中的其它字符不是按照字面意思进行匹配的,但它们都具有特殊的意义.正则表达式 /s$/ 包含两个字符. 第一个特殊字符 "s" 是按照...

java闹钟开发项目: 项目中多次使用了正则表达式来解析和提取网页内容，如： - `(.*?)</p>`：用于匹配HTML标签内的文本内容。 - `src="(.*?)"`：用来提取图片的源地址。这些正则表达式的应用使得程序能够高效地从大量的HTML代码中...

[uibot]rpa初级开发指南教程之数据处理.docx: 3. 正则表达式处理：正则表达式是一种模式匹配技术，常用于字符串处理和数据提取，正则表达式处理方法包括正则表达式的编写、正则表达式的应用等。 4. 集合处理：集合是一种数据结构，集合处理方法包括集合的创建、...

Android编程实现从字符串中查找电话号码的方法: 主要涉及的知识点包括字符串操作、正则表达式以及Java的Pattern和Matcher类。首先，我们要明白电话号码通常由一连串的数字组成，因此我们可以使用正则表达式来匹配这些数字序列。在Java和Android中，我们可以利用`...

[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar: - **URL处理**：利用正则表达式或DOM树结构解析和处理URL，防止无限循环和无效链接。 4. **实现方法** - **深度优先**：先访问一个URL的所有子链接，再回溯到父链接。 - **广度优先**：先访问所有已知URL的子...

网页文字抓取器.rar: 这个过程通常涉及网络编程、正则表达式、DOM解析和多线程等技术。在实现网页抓取时，有几种常见的方法： 1. **手动抓取**：通过浏览器插件或脚本，如JavaScript的jQuery库，直接在浏览器环境中获取元素并提取文本...

【Java】将Markdown格式文本转换为纯文本: 总结起来，将Markdown格式文本转换为纯文本在Java中可以通过正则表达式或者使用专门的解析库来实现。尽管直接的解决方案可能较少，但通过理解和利用Markdown的规则，我们可以构建自己的转换逻辑，或者选择现有的库来...

自定义TextView，使部分内容有点击事件，并计算其坐标位置: // 根据offset获取关键字的逻辑，例如通过正则表达式或预定义关键字列表 } private void showCustomView(String keyword) { // 创建并显示自定义View，展示关键词相关信息 } ``` 在`getKeywordAtOffset`方法中，...

文本编辑器sakura: 同时，它也提供了查找替换功能，支持正则表达式，使得在大量文本中进行搜索和替换操作变得简单快捷。除此之外，sakura编辑器具有强大的编码支持，能够自动识别和切换文件的字符编码，避免了因编码问题导致的乱码...

wenben.rar_wenben: 4. 正则表达式：对于高级查找和替换功能，开发者需要理解正则表达式的语法和用法。 5. 文本格式处理：了解如何处理不同格式的文本，如纯文本、RTF（富文本格式）或HTML。在开发过程中，开发者可能会遇到的问题包括...

java范例开发大全源代码: 　实例105 使用正则表达式验证电话号码的格式 141 　6.2 字符串缓存类StringBuffer 143 　实例106 创建字符串缓存类 143 　实例107 提取单个字符 144 　实例108 给指定字符赋值 145 　实例109 插入新的...

javascirp核心对象.doc: y)`替换匹配项，`search(x)`查找第一个匹配的正则表达式的位置，`slice(x, y)`截取字符串的一部分，`split(x)`按分隔符分割字符串成数组，`substr(x, y)`获取从指定位置开始的一定数量的字符，`toLowerCase()`和`...

目前互联网中的网络爬虫的原理和影响.pdf: Java爬虫可以利用HttpURLConnection或HttpClient库进行网络请求，Jsoup库进行HTML解析，以及正则表达式或第三方库如Apache Tika进行文本提取。网络爬虫的工作流程大致如下： 1. **初始化**：确定目标网站，设置...

WebScraper - Web Data Extraction-开源: 正则表达式是一种强大的文本处理工具，常用于搜索、替换和匹配文本模式。在WebScraper中，用户可以利用这个功能定制化地定义他们想要抓取的数据结构，无论是网页上的文字、链接、图片还是其他元素。通过这种方式，...

垃圾分类小程序端使用SpringBoot+uniapp技术.zip: 常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

Java范例开发大全 (源程序）: 　实例105 使用正则表达式验证电话号码的格式 141 　6.2 字符串缓存类StringBuffer 143 　实例106 创建字符串缓存类 143 　实例107 提取单个字符 144 　实例108 给指定字符赋值 145 　实例109 插入新的字符 146...

java范例开发大全: 实例105 使用正则表达式验证电话号码的格式 141 6.2 字符串缓存类StringBuffer 143 实例106 创建字符串缓存类 143 实例107 提取单个字符 144 实例108 给指定字符赋值 145 实例109 插入新的字符 146 实例110 插入新的...

Global site tag (gtag.js) - Google Analytics