- 浏览: 216931 次
- 性别:
- 来自: 北京
文章分类
public static void main(String[] args) {
String regex = "<p style=\"TEXT-INDENT: 2em\">(.*?)</p>";
String html = "<p style=\"TEXT-INDENT: 2em\">ttt</p>yyyyyfafdasf<p style=\"TEXT-INDENT: 2em\">bbb</p>";
Pattern pattern = Pattern.compile(regex);
Matcher match = pattern.matcher(html);
StringBuffer buffer = new StringBuffer();
while(match.find()){
buffer.append(match.group(1));
buffer.append("\n");
}
System.out.println(buffer.toString());
}
说明:想要抓取网页中想要的文本,而每段文本都是存放在<p style=\"TEXT-INDENT: 2em\">开头和</p>结尾的标签中,所以我们想要的获取的是ttt和bbb,(.*?)表示一个分组,并且使用的是非贪婪的模式,即获取最小的匹配内容,match.find()返回的是是否找到匹配的内容,match.group(1)表示取出其中的文本内容
String regex = "<p style=\"TEXT-INDENT: 2em\">(.*?)</p>";
String html = "<p style=\"TEXT-INDENT: 2em\">ttt</p>yyyyyfafdasf<p style=\"TEXT-INDENT: 2em\">bbb</p>";
Pattern pattern = Pattern.compile(regex);
Matcher match = pattern.matcher(html);
StringBuffer buffer = new StringBuffer();
while(match.find()){
buffer.append(match.group(1));
buffer.append("\n");
}
System.out.println(buffer.toString());
}
说明:想要抓取网页中想要的文本,而每段文本都是存放在<p style=\"TEXT-INDENT: 2em\">开头和</p>结尾的标签中,所以我们想要的获取的是ttt和bbb,(.*?)表示一个分组,并且使用的是非贪婪的模式,即获取最小的匹配内容,match.find()返回的是是否找到匹配的内容,match.group(1)表示取出其中的文本内容
发表评论
-
JVM启动时指定-Dfile.encoding="UTF8"的作用
2013-10-17 13:50 2414简单来说就是指定JVM默认的编码方式 java io中很多方法 ... -
java多线程 小记
2012-04-15 14:49 0thread join的方法 http://blog.csdn ... -
浅析多线程
2012-04-08 22:35 0线程组 线程是被 ... -
多线程意外中断处理
2012-04-08 20:54 0本文转自:http://peirenlei.iteye.com ... -
多线程项目学习
2012-04-08 20:35 0线程组的作用: ThreadGroup类中的某些方法,可以对线 ... -
java 静态成员变量的内存分配
2012-04-06 10:28 0静态成员变量是属于类变量,即当JVM加载class文件到虚拟机 ... -
深度克隆与浅克隆
2012-04-05 16:31 1180要想实现某个对象的克隆需要该对象实现java.lang.Clo ... -
修改图片大小并添加水印
2012-03-29 13:47 1332import java.awt.*; import java. ... -
JVM的内存分配
2012-03-16 10:06 0Java里的堆(heap)栈(stack)和方法区(metho ... -
HashMap添加数据的过程
2012-03-14 22:18 7142当添加的元素的key为null ... -
几种classloader的加载范围
2012-02-28 12:43 1381Bootstrap class loader:最顶级的clas ... -
标准的URLConnection请求
2012-01-13 16:39 0只写了主要的代码 URL url = new URL(urlS ... -
常用的ClassLoader的加载范围
2012-01-13 13:53 1440WebAppClassLoader装载器装作文件的范围: 会加 ... -
ClassLoader.getSystemClassLoader().loadClass()和Class.forName()的区别
2012-01-13 13:08 0class A { static { System.ou ... -
httpClient超时解决办法
2012-01-12 16:47 0DefaultHttpClient: 请求超时 httpcli ... -
项目中的使用技巧小记
2012-01-10 21:11 618实现数据在多线程之间的共享: 因为线程的成员变量是各个该线程实 ... -
ThreadLocal
2012-01-10 08:55 1453ThreadLocal是实现线程范围内的数据共享,即不同线程获 ... -
线程加锁优化
2012-01-08 13:19 0实际上,在某些classes中,这种instance方法的同步 ... -
实现多线程使用继承Thread类和Runnable的原因
2012-01-03 15:09 1407我们都知道实现多线程的两种方式,一种是继承Thread类,另一 ... -
一个简单的socket编程实例
2011-12-28 10:50 1639转正于http://www.cnblogs.com/linzh ...
相关推荐
在本例中,“利用正则表达式奇虎论坛抓取”意味着我们将探讨如何使用正则表达式从奇虎论坛的网页中提取所需信息。 首先,了解正则表达式的基础概念至关重要。常见的元字符如"."代表任意字符,"*"表示前面的元素可以...
#### 十二、利用正则表达式限制网页表单中的文本框输入内容 - **限制只能输入中文**: ```javascript onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',...
本资源提供的是一个适用于Delphi的正则表达式控件,方便开发者在Delphi应用程序中集成正则表达式功能。 该控件可能基于VBScript的正则表达式引擎,如"VBScriptRegex.pas"文件名所示,这表明它可能封装了VBScript中...
在IT行业中,正则表达式(Regex)被广泛应用于数据验证、文本搜索、替换和提取等场景。本资料包聚焦于Java语言中的正则表达式使用,旨在帮助初学者快速掌握这一核心技术。 在Java中,正则表达式的操作主要通过`java...
在Java编程语言中,正则表达式是一种强大的文本处理工具,用于模式匹配、搜索和替换。这个"java类对正则表达式的处理"是作者创建的一个独立的Java类,旨在简化正则表达式的操作,无需深入理解底层实现,使用者可以...
爬虫技术是一种自动化获取网页数据的方法,而正则表达式则是用于在文本中匹配特定模式的工具。 实验的目标是使用正则表达式从指定的读书网站上提取书籍的名称、作者和简介。首先,我们需要对网站进行数据定位,这...
但从标题和标签来看,我们可以推断文档内容将围绕Python中的正则表达式展开,介绍其基本概念、常见用法以及如何在实际编程中运用。 #### 标签解读 - **正则表达式**:指的是文档的主题。 - **python**:指明了使用...
对于正则表达式验证邮箱、手机号的函数`check_email`和`check_phone`,它们分别在邮箱和手机号输入框触发`onchange`事件时被调用,利用正则表达式对输入的邮箱和手机号格式进行验证,如果不符合预设的正则表达式规则...
在Java开发中,正则表达式被广泛应用于数据验证、文本提取、日志分析等多个领域。本资源"正则表达式大全"提供了全面的正则表达式知识,旨在帮助Java开发者提升在实际项目中的应用能力。 一、基础概念 1. 元字符:如...
- **数据清洗**:利用正则表达式去除无效数据、格式化数据。 - **文本提取**:从大量文本中提取特定信息,如网址、电话号码等。 - **表单验证**:在网页表单提交时验证用户输入是否符合要求。 - **日志分析**:对...
### 经典正则表达式解析与应用 正则表达式是计算机科学中一个非常...以上就是从给定文件信息中提炼出的经典正则表达式及其应用场景,掌握了这些知识点,将大大提升在文本处理、数据验证和网页交互设计等方面的能力。
在IT行业中,正则表达式(Regex)是一种强大的文本处理工具,常用于从大量文本中提取特定模式的数据。本教程将深入讲解如何使用Objective-C语言结合正则表达式从HTML网页中抓取所需数据。 首先,理解Objective-C是...
正则表达式是一种强大的文本处理工具,用于定义和识别文本中的模式。它们由普通字符和特殊字符(元字符)组成,被广泛应用于编程语言中,如JavaScript、Python、Perl等,用于字符串搜索、替换和提取。 ### 正则...
正则表达式是计算机科学中用于字符串匹配的一个强大工具,它通过一系列特殊的字符和符号组成一种逻辑表达式,用来描述或者实现复杂的搜索、匹配和替换等操作。正则表达式中有一类非常重要的组成部分,那就是子表达式...
"的项目中,我们将深入探讨如何利用JavaScript这一强大的客户端脚本语言,结合正则表达式的强大功能,实现高效且精准的网页数据抓取。 正则表达式是一种模式匹配工具,用于在字符串中查找、替换或提取特定模式的...
网页Html抓取爬虫测试工具是一款专为网页数据抓取设计的应用,主要利用正则表达式进行HTML内容的解析和筛选。这款工具是用C#编程语言编写的,旨在简化和优化网页信息提取的过程,帮助开发者高效地进行网页数据挖掘...
在爬虫的实际应用中,例如提取网页中的图片链接,可以先将网页源码保存到本地文件中,然后利用正则表达式匹配出`<img>`标签中的`src`属性值。使用`re.S`(或`re.DOTALL`)标志可以确保`.`匹配包括换行符在内的所有...
首先,我们将关注标题中提到的“Java利用正则取标签之间的数据”。在给定的示例中,我们有一个字符串`str`包含两个`<font>`标签,每个标签都有`color='red'`属性。目标是提取这些标签内的文本。为了实现这一目标,...