`
zhuwei2008
  • 浏览: 83480 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

正则表达式提取html中的内容

    博客分类:
  • java
阅读更多
public class Test {

    public static void main(String args[]) {
        String html = "<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
        // 简单示例,相当于String html=getHtml(String urlString);
        List resultList = getContext(html);
        for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
            String context = (String) iterator.next();
            System.out.println(context);
        }
    }
    
    /**
     * 提取"<title>XXXX</title>"中的文字XXXX
     * @param html 要解析的html文档内容
     * @return 解析结果,可以多次匹配,每次匹配的结果按文档中出现的先后顺序添加进结果List
     */
    public static List getContext(String html) {
        List resultList = new ArrayList();
        Pattern p = Pattern.compile("<title>([^</title>]*)");//匹配<title>开头,</title>结尾的文档
        Matcher m = p.matcher(html );//开始编译
        while (m.find()) {
            resultList.add(m.group(1));//获取被匹配的部分
        }
        return resultList;
    }
}
分享到:
评论
1 楼 343101272 2009-07-08  
很好很强大

相关推荐

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例 Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作...

    Jmeter正则表达式提取器

    其中,正则表达式提取器是Jmeter中的一个强大功能,用于从服务器响应中提取所需的数据,实现数据的关联,为后续请求提供参数。本文将深入探讨Jmeter正则表达式提取器的使用方法及其实战应用。 首先,我们理解Jmeter...

    java正则表达式提取html中的信息

    java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的

    正则表达式提取图片

    ### 正则表达式提取图片 #### 知识点概览 本文主要介绍如何使用正则表达式来从文本中提取图片。正则表达式是一种强大的文本处理工具,被广泛应用于搜索、替换以及数据提取等场景。对于网页开发或者数据分析来说,...

    C#正则表达式提取网页数据

    在IT行业中,C#是一种广泛使用的...总结,使用C#结合正则表达式从网页中提取数据是一项综合性的任务,涉及到网络通信、HTML解析、数据库操作等多个方面。熟练掌握这些知识点,将有助于你构建高效的数据抓取和处理系统。

    VB用正则表达式提取网页中的链接

    ### 标题解读:“VB用正则表达式提取网页中的链接” 此标题明确指出了使用VB编程语言和正则表达式技术进行网页链接提取的技术方案。在Web页面中,链接通常以`&lt;a href="..."&gt;`的形式存在,通过正则表达式的匹配功能...

    asp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txt

    ### ASP.NET 中使用正则表达式提取 HTML 代码内的图片路径 #### 背景介绍 在 Web 开发中,经常需要处理 HTML 文档或字符串,例如从网页中提取特定的信息,比如图片链接等。ASP.NET 是一种广泛使用的 Web 应用开发...

    常用正则表达式HTML,JAVA合集

    正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、数据提取等IT领域。在这个“常用正则表达式HTML,JAVA合集”中,我们主要关注的是HTML和Java环境下的正则...

    精通正则表达式(第三版)简体中文版

    本书《精通正则表达式(第三版)简体中文版》主要介绍了正则表达式的概念、语法以及如何在不同的环境中高效地使用正则表达式。 #### 二、正则表达式的语法基础 1. **元字符**:正则表达式中的特殊字符,用于指定...

    易语言正则表达式文本替换

    在易语言中实现正则表达式文本替换,是高级文本处理和数据提取的重要手段。本文将深入探讨易语言中的正则表达式文本替换功能及其应用。 正则表达式(Regular Expression)是一种模式匹配工具,用于对字符串进行搜索...

    正则表达式提取html中的所有的Email地址

    不过,这个例子中的压缩包文件"12提取html中的所有的Email地址"可能包含了示例HTML文件或已提取的电子邮件地址。如果文件是HTML,你可以将其内容读入`html`变量;如果文件包含已提取的电子邮件,那么你可以解析这些...

    正则表达式提取网页编码

    ### 正则表达式提取网页编码 在网页中,编码信息通常位于`&lt;meta&gt;`标签内,通过`charset`属性指定。例如,在以下HTML代码片段中: ```html &lt;meta http-equiv="Content-Type" content="text/html;charset=utf-8"/&gt; `...

    常用正则表达式大全.txt

    根据提供的文件信息,我们可以整理出一系列与正则表达式相关的...以上内容概括了从文件中提取出来的正则表达式知识点,这些知识点覆盖了正则表达式的多个应用场景,对于从事软件开发、数据分析等领域的人来说非常实用。

    源码(精通正则表达式&实战正则表达式)

    在IT领域,正则表达式(Regular Expression,简称regex)是一种强大的文本处理工具,用于匹配、查找、替换或提取字符串中的特定模式。本资源“源码(精通正则表达式&实战正则表达式)”专注于JavaScript环境下的正则...

    Java正则表达式 Java 正则表达式

    - 例如,可以使用正则表达式检查输入的IP地址是否符合规范,从网页文本中提取电子邮件地址或者超链接。 2. **核心类** - `java.lang.String`:提供了`matches()`方法,可以直接对字符串进行正则匹配。 - `java....

    正则表达式综合练习

    9. **文件爬虫与网络爬虫中的应用**:在文件爬虫中,正则表达式常用于从文本文件中提取所需信息,如URL、邮箱地址等。在网络爬虫中,它可以用于解析HTML或XML文档,提取链接、文本内容等。 10. **编程语言支持**:...

    JavaScript正则表达式匹配 div style标签

    由于HTML是一种标记语言,它具有自己的语法规则,而在正则表达式中构建复杂的HTML结构匹配模式可能会导致匹配结果不准确。正则表达式无法很好地处理嵌套标签和具有属性的标签,且对HTML的解析通常不如专门的HTML解析...

    js_正则表达式全攻略

    在JavaScript中,正则表达式被广泛应用于字符串操作、表单验证、数据提取等多种场景,其简洁性和灵活性使其成为开发人员必备的技能之一。 #### 二、实战案例详解 ##### 1. 匹配结尾的数字 **问题描述**:提取字符...

    delphi xe 10 正则表达式

    在Delphi XE10中,正则表达式是一种强大的文本处理工具,它允许程序员通过模式匹配来查找、替换或提取字符串中的特定模式。本文将深入探讨Delphi XE10中的正则表达式功能,包括基本概念、语法、API接口以及实际应用...

    js正则表达式限制文本框只能输入数字,能输小数点.

    正则表达式是一种强大的文本匹配工具,它提供了一种灵活的方式来查找、替换或提取字符串中的模式。在JavaScript中,正则表达式通常用于字符串操作,例如验证表单输入、搜索文本以及替换字符等。 #### 2. 验证数字和...

Global site tag (gtag.js) - Google Analytics