`

利用正则表达式获取网页中多处重复出现的标签数据

阅读更多
public static void main(String[] args) {
    String regex = "<p style=\"TEXT-INDENT: 2em\">(.*?)</p>";
    String html = "<p style=\"TEXT-INDENT: 2em\">ttt</p>yyyyyfafdasf<p style=\"TEXT-INDENT: 2em\">bbb</p>";
    Pattern pattern = Pattern.compile(regex);
    Matcher match = pattern.matcher(html);
    StringBuffer buffer = new StringBuffer();
    while(match.find()){
buffer.append(match.group(1));
buffer.append("\n");
}
System.out.println(buffer.toString());
}
说明:想要抓取网页中想要的文本,而每段文本都是存放在<p style=\"TEXT-INDENT: 2em\">开头和</p>结尾的标签中,所以我们想要的获取的是ttt和bbb,(.*?)表示一个分组,并且使用的是非贪婪的模式,即获取最小的匹配内容,match.find()返回的是是否找到匹配的内容,match.group(1)表示取出其中的文本内容
分享到:
评论

相关推荐

    利用正则表达式奇虎论坛抓取

    在本例中,“利用正则表达式奇虎论坛抓取”意味着我们将探讨如何使用正则表达式从奇虎论坛的网页中提取所需信息。 首先,了解正则表达式的基础概念至关重要。常见的元字符如"."代表任意字符,"*"表示前面的元素可以...

    PHP一些常用的正则表达式

    #### 十二、利用正则表达式限制网页表单中的文本框输入内容 - **限制只能输入中文**: ```javascript onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',...

    delphi正则表达式控件

    本资源提供的是一个适用于Delphi的正则表达式控件,方便开发者在Delphi应用程序中集成正则表达式功能。 该控件可能基于VBScript的正则表达式引擎,如"VBScriptRegex.pas"文件名所示,这表明它可能封装了VBScript中...

    正则表达式学习资料

    在IT行业中,正则表达式(Regex)被广泛应用于数据验证、文本搜索、替换和提取等场景。本资料包聚焦于Java语言中的正则表达式使用,旨在帮助初学者快速掌握这一核心技术。 在Java中,正则表达式的操作主要通过`java...

    java类对正则表达式的处理

    在Java编程语言中,正则表达式是一种强大的文本处理工具,用于模式匹配、搜索和替换。这个"java类对正则表达式的处理"是作者创建的一个独立的Java类,旨在简化正则表达式的操作,无需深入理解底层实现,使用者可以...

    使用正则表达式提取某站点古诗文.pptx

    爬虫技术是一种自动化获取网页数据的方法,而正则表达式则是用于在文本中匹配特定模式的工具。 实验的目标是使用正则表达式从指定的读书网站上提取书籍的名称、作者和简介。首先,我们需要对网站进行数据定位,这...

    python之常用正则表达式.pdf

    但从标题和标签来看,我们可以推断文档内容将围绕Python中的正则表达式展开,介绍其基本概念、常见用法以及如何在实际编程中运用。 #### 标签解读 - **正则表达式**:指的是文档的主题。 - **python**:指明了使用...

    jQuery实现验证表单密码一致性及正则表达式验证邮箱、手机号的方法

    对于正则表达式验证邮箱、手机号的函数`check_email`和`check_phone`,它们分别在邮箱和手机号输入框触发`onchange`事件时被调用,利用正则表达式对输入的邮箱和手机号格式进行验证,如果不符合预设的正则表达式规则...

    正则表达式大全

    在Java开发中,正则表达式被广泛应用于数据验证、文本提取、日志分析等多个领域。本资源"正则表达式大全"提供了全面的正则表达式知识,旨在帮助Java开发者提升在实际项目中的应用能力。 一、基础概念 1. 元字符:如...

    常用正则表达式语法例句

    - **数据清洗**:利用正则表达式去除无效数据、格式化数据。 - **文本提取**:从大量文本中提取特定信息,如网址、电话号码等。 - **表单验证**:在网页表单提交时验证用户输入是否符合要求。 - **日志分析**:对...

    经典正则表达式

    ### 经典正则表达式解析与应用 正则表达式是计算机科学中一个非常...以上就是从给定文件信息中提炼出的经典正则表达式及其应用场景,掌握了这些知识点,将大大提升在文本处理、数据验证和网页交互设计等方面的能力。

    RegxForHtmlData:使用正则表达式从网页抓取数据

    在IT行业中,正则表达式(Regex)是一种强大的文本处理工具,常用于从大量文本中提取特定模式的数据。本教程将深入讲解如何使用Objective-C语言结合正则表达式从HTML网页中抓取所需数据。 首先,理解Objective-C是...

    正则表达式

    正则表达式是一种强大的文本处理工具,用于定义和识别文本中的模式。它们由普通字符和特殊字符(元字符)组成,被广泛应用于编程语言中,如JavaScript、Python、Perl等,用于字符串搜索、替换和提取。 ### 正则...

    正则表达式教程之子表达式用法分析

    正则表达式是计算机科学中用于字符串匹配的一个强大工具,它通过一系列特殊的字符和符号组成一种逻辑表达式,用来描述或者实现复杂的搜索、匹配和替换等操作。正则表达式中有一类非常重要的组成部分,那就是子表达式...

    regex-web-scraping:使用正则表达式进行网页抓取...忍者级别!

    "的项目中,我们将深入探讨如何利用JavaScript这一强大的客户端脚本语言,结合正则表达式的强大功能,实现高效且精准的网页数据抓取。 正则表达式是一种模式匹配工具,用于在字符串中查找、替换或提取特定模式的...

    网页Html抓取爬虫测试工具

    网页Html抓取爬虫测试工具是一款专为网页数据抓取设计的应用,主要利用正则表达式进行HTML内容的解析和筛选。这款工具是用C#编程语言编写的,旨在简化和优化网页信息提取的过程,帮助开发者高效地进行网页数据挖掘...

    Python 爬虫学习笔记之正则表达式

    在爬虫的实际应用中,例如提取网页中的图片链接,可以先将网页源码保存到本地文件中,然后利用正则表达式匹配出`&lt;img&gt;`标签中的`src`属性值。使用`re.S`(或`re.DOTALL`)标志可以确保`.`匹配包括换行符在内的所有...

    Java利用正则取标签之间的数据

    首先,我们将关注标题中提到的“Java利用正则取标签之间的数据”。在给定的示例中,我们有一个字符串`str`包含两个`&lt;font&gt;`标签,每个标签都有`color='red'`属性。目标是提取这些标签内的文本。为了实现这一目标,...

Global site tag (gtag.js) - Google Analytics