public class Test {
public static void main(String[] args)
{
//String s="<p id=km> <a href=http://hi.baidu.com>空间</a> | <a ";
String s="</p><p style=height:14px><a href=http://jingjia.baidu.com>企业推广</a> | <a href=http://top.baidu.com>搜索风云榜</a> | <a href=/home.html>关于百度</a> | <a href=http://ir.baidu.com>About Baidu</a></p><p id=b>©2008 Baidu <a href=http://www.baidu.com/duty>使用百度前必读</a> <a href=http://www.miibeian.gov.cn target=_blank>京ICP证030173号</a> <a href=http://www.hd315.gov.cn/beian/view.asp?bianhao=010202001092500412><img src=http://gimg.baidu.com/img/gs.gif></a></p></center></body></html><!--543ff95f18f36b11-->";
String regex="<a.*?/a>";
//String regex = "<a.*>(.*)</a>";
Pattern pt=Pattern.compile(regex);
Matcher mt=pt.matcher(s);
while(mt.find())
{
System.out.println(mt.group());
System.out.println();
String s2=">.*?</a>";//标题部分
String s3="href=.*?>";
Pattern pt2=Pattern.compile(s2);
Matcher mt2=pt2.matcher(mt.group());
while(mt2.find())
{
System.out.println("标题:"+mt2.group().replaceAll(">|</a>",""));
}
Pattern pt3=Pattern.compile(s3);
Matcher mt3=pt3.matcher(mt.group());
while(mt3.find())
{
System.out.println("网址:"+mt3.group().replaceAll("href=|>",""));
}
}
}
}
分享到:
相关推荐
java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的
在Java编程中,正则表达式是处理文本模式匹配的强大工具,尤其在处理网页内容时,如提取网址和链接文字。这个示例展示了如何使用Java的正则表达式来匹配网页中的所有网址和链接文字。下面将详细讲解相关知识点。 1....
通过理解正则表达式的结构和Java的`Pattern`与`Matcher`类的用法,我们可以灵活地处理各种文本数据,进行复杂的查找和匹配操作。在实际开发中,这样的技能对于数据抓取、文本分析和信息提取等领域至关重要。
这样说来,正则表达式/java/就和 所有包含子串 "java" 的字符串相匹配.虽然正则表达式中的其它字符不是按照字面意思进行匹配的,但它们都具有特殊的意义.正则表达式 /s$/ 包含两个字符. 第一个特殊字符 "s" 是按照...
项目中多次使用了正则表达式来解析和提取网页内容,如: - `(.*?)</p>`:用于匹配HTML标签内的文本内容。 - `src="(.*?)"`:用来提取图片的源地址。 这些正则表达式的应用使得程序能够高效地从大量的HTML代码中...
3. 正则表达式处理:正则表达式是一种模式匹配技术,常用于字符串处理和数据提取,正则表达式处理方法包括正则表达式的编写、正则表达式的应用等。 4. 集合处理:集合是一种数据结构,集合处理方法包括集合的创建、...
主要涉及的知识点包括字符串操作、正则表达式以及Java的Pattern和Matcher类。 首先,我们要明白电话号码通常由一连串的数字组成,因此我们可以使用正则表达式来匹配这些数字序列。在Java和Android中,我们可以利用`...
- **URL处理**:利用正则表达式或DOM树结构解析和处理URL,防止无限循环和无效链接。 4. **实现方法** - **深度优先**:先访问一个URL的所有子链接,再回溯到父链接。 - **广度优先**:先访问所有已知URL的子...
这个过程通常涉及网络编程、正则表达式、DOM解析和多线程等技术。 在实现网页抓取时,有几种常见的方法: 1. **手动抓取**:通过浏览器插件或脚本,如JavaScript的jQuery库,直接在浏览器环境中获取元素并提取文本...
总结起来,将Markdown格式文本转换为纯文本在Java中可以通过正则表达式或者使用专门的解析库来实现。尽管直接的解决方案可能较少,但通过理解和利用Markdown的规则,我们可以构建自己的转换逻辑,或者选择现有的库来...
// 根据offset获取关键字的逻辑,例如通过正则表达式或预定义关键字列表 } private void showCustomView(String keyword) { // 创建并显示自定义View,展示关键词相关信息 } ``` 在`getKeywordAtOffset`方法中,...
同时,它也提供了查找替换功能,支持正则表达式,使得在大量文本中进行搜索和替换操作变得简单快捷。 除此之外,sakura编辑器具有强大的编码支持,能够自动识别和切换文件的字符编码,避免了因编码问题导致的乱码...
4. 正则表达式:对于高级查找和替换功能,开发者需要理解正则表达式的语法和用法。 5. 文本格式处理:了解如何处理不同格式的文本,如纯文本、RTF(富文本格式)或HTML。 在开发过程中,开发者可能会遇到的问题包括...
实例105 使用正则表达式验证电话号码的格式 141 6.2 字符串缓存类StringBuffer 143 实例106 创建字符串缓存类 143 实例107 提取单个字符 144 实例108 给指定字符赋值 145 实例109 插入新的...
y)`替换匹配项,`search(x)`查找第一个匹配的正则表达式的位置,`slice(x, y)`截取字符串的一部分,`split(x)`按分隔符分割字符串成数组,`substr(x, y)`获取从指定位置开始的一定数量的字符,`toLowerCase()`和`...
Java爬虫可以利用HttpURLConnection或HttpClient库进行网络请求,Jsoup库进行HTML解析,以及正则表达式或第三方库如Apache Tika进行文本提取。 网络爬虫的工作流程大致如下: 1. **初始化**:确定目标网站,设置...
正则表达式是一种强大的文本处理工具,常用于搜索、替换和匹配文本模式。在WebScraper中,用户可以利用这个功能定制化地定义他们想要抓取的数据结构,无论是网页上的文字、链接、图片还是其他元素。通过这种方式,...
常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...
实例105 使用正则表达式验证电话号码的格式 141 6.2 字符串缓存类StringBuffer 143 实例106 创建字符串缓存类 143 实例107 提取单个字符 144 实例108 给指定字符赋值 145 实例109 插入新的字符 146...
实例105 使用正则表达式验证电话号码的格式 141 6.2 字符串缓存类StringBuffer 143 实例106 创建字符串缓存类 143 实例107 提取单个字符 144 实例108 给指定字符赋值 145 实例109 插入新的字符 146 实例110 插入新的...