`

正则表达式得到网页信息

阅读更多
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlTableDataRegex {

    public static void main(String[] args) {
        String input =
            "<table width=\"530\" border=\"0\" cellpadding=\"0\" cellspacing=\"1\" bgcolor=\"#D7D7D7\" class=\"pricetable1\">\r\n" +
            "<tr>\n <td align=\"center\">2008-12-10 </td>\n <td align=\"center\">0.7416 </td>\n </tr>\n" +
            "<tr>\n <td align=\"center\">2008-12-09 </td>\n <td align=\"center\">0.7334 </td>\n </tr>\n" +
            "<tr>\n <td align=\"center\">2008-12-08 </td>\n <td align=\"center\">0.7430 </td>\n </tr>\n" +
            "<tr>\n <td align=\"center\">2008-12-05 </td>\n <td align=\"center\">0.7341 </td>\n </tr>\n" +
            "<tr>\n <td align=\"center\">2008-12-04 </td>\n <td align=\"center\">0.7289 </td>\n </tr>\n" +
            "<tr>\n <td align=\"center\">2008-12-03 </td>\n <td align=\"center\">0.7251 </td>\n </tr>\n" +
            "<tr>\n <td align=\"center\">2008-12-02 </td>\n <td align=\"center\">0.7165 </td>\n </tr>\n" +
            "\r\n\r\n\t\t" +
            "</table>";
        Pattern p = Pattern.compile("(?is)<tr[^<>]*>\\s*<td[^<>]*>(.*?)</td>\\s*<td[^<>]*>(.*?)</td>\\s*</tr>");
        Matcher m = p.matcher(input);
        while (m.find()) {
            String part1 = m.group(1).trim();
            String part2 = m.group(2).trim();
            System.out.println(part1 + ", " + part2);
        }
    }

}

自己写了个
Pattern p=Pattern.compile("<td[^<>]*>(.*?)</td>");
        Matcher m = p.matcher(input);
        while (m.find()) {
            String part1 = m.group(1).trim();
            //String part2 = m.group(2).trim();
            System.out.println(part1 + ", " );
        }
分享到:
评论

相关推荐

    VB用正则表达式提取网页中的链接

    本次将详细解析如何利用Visual Basic(VB)结合正则表达式来高效地从网页中抽取链接信息。这不仅适用于自动化网络爬虫,也广泛应用于数据挖掘、内容分析等场景。 ### 标题解读:“VB用正则表达式提取网页中的链接”...

    Delphi 10.4 最新版正则表达式(TRegExpr)源码

    您还可以从网页或文档中提取电话号码,邮政编码等,在日志文件中搜索复杂的模式,然后您就可以想象得到。无需重新编译程序即可更改规则(模板)。TRegExpr以纯Pascal实现。它包含在 Lazarus(免费Pascal)项目中。...

    正则表达式工具The Regulator

    3. **数据提取**:在日志分析、网页爬虫等场景下,正则表达式可以帮助我们快速抽取关键信息。 4. **文本处理**:在自动化脚本中,正则表达式可用于处理文本,如切割字符串、去除空白字符等。 The Regulator作为一...

    精通正则表达式电子书

    5. **数据提取**:从非结构化数据中提取关键信息,如从网页中抓取特定数据。 #### 六、总结 《精通正则表达式》是一本非常适合想要深入学习正则表达式的读者的书籍。它不仅涵盖了正则表达式的基础知识,还深入介绍...

    java正则表达式提取html中的信息

    java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的

    正则表达式.doc

    正则表达式并非新概念,其起源可追溯到20世纪早期对神经网络的研究,由数学家Stephen Kleene提出,并在Ken Thompson的Unix系统中得到应用,特别是在qed编辑器中。 在日常使用中,正则表达式提供了比简单的通配符...

    正则表达式正则表达式.zip

    在实际应用中,正则表达式常用于数据验证(如邮箱、电话号码格式)、文本搜索与替换、数据提取(如网页爬虫中的信息抽取)等场景。熟练掌握正则表达式能极大地提高开发效率和代码质量,是每个IT从业者必备的技能之一...

    正则表达式自动测试(可查看原代码)

    "正则表达式自动测试"是一个专门针对这一主题的实用工具,它允许开发者直接在网页上测试他们的正则表达式,以确保它们能够按预期工作。 这个测试页面经过了改进,提供了简洁、直观和高效的测试环境。开发者可以快速...

    正则表达式适合kindle看的pdf版本

    正则表达式是一种强大的文本处理工具,用于搜索、替换和验证字符串中的内容。本文档是一份针对Kindle用户设计的PDF版本教材,旨在提供一个全面的正则表达式学习资源。该资源不仅包含了大量的正则表达式示例,而且还...

    常用的正则表达式.txt

    在文本分析领域,正则表达式的强大功能更是得到了充分的展现,无论是提取关键信息还是去除无用内容,都能高效完成任务。 总之,掌握正则表达式的使用,对任何从事IT行业的专业人士来说都是极其宝贵的技能,它能够极...

    javascript正则表达式表单验证大全

    通过正则表达式和字符串替换方法,可以从完整的URL中提取出文件名或路径,这对于动态网页链接处理和资源定位十分关键。 #### 输入过滤 使用onkeyup和onbeforepaste事件监听器,结合正则表达式,可以实时过滤用户的...

    很实用的正则表达式,在网页编程中,你会得到意想不到的效果!

    ### 正则表达式在网页编程中的应用 #### 一、引言 正则表达式是一种强大的文本处理工具,能够帮助我们实现字符串的查找、替换等操作。在网页编程中,正则表达式的应用场景非常广泛,例如表单验证、数据清洗、格式...

    易语言正则表达式运用

    正则表达式(Regular Expression)是处理字符串的强大工具,它在易语言中同样得到了广泛的应用。本篇文章将深入探讨易语言中正则表达式的运用以及如何通过正则表达式来取时间。 首先,我们需要理解正则表达式的基本...

    C#正则提取中文

    在C#语言中,正则表达式的应用非常广泛,尤其在处理中文字符时,其灵活性和效率更是得到了充分的体现。下面将深入探讨如何使用C#的正则表达式来提取中文字符,这不仅适用于简单的文本处理,也广泛应用于网页抓取、...

    基于Python正则表达式的彩票信息爬取.pdf

    ### 基于Python正则表达式的彩票信息爬取 #### 一、引言 随着互联网的快速发展,网络上蕴含着海量有价值的信息资源,而彩票信息作为一种特定类型的数据,在线可获得的彩票历史数据和实时数据对彩票研究者、数据...

    Java 实现网页爬虫(正则表达式的应用)

    利用Java 实现了网页爬虫(正则表达式的应用)并将获得数据保存到本地。

    PHP一些常用的正则表达式

    #### 十二、利用正则表达式限制网页表单中的文本框输入内容 - **限制只能输入中文**: ```javascript onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',...

    最好用的正则表达式匹配工具

    6. **版本支持**:RegexBuddy考虑了不同的正则表达式引擎差异,如Perl、Java、.NET等,确保你在任何环境下都能得到准确的结果。 在安装RegexBuddy时,你可以使用"SetupRegexBuddy.exe"这个文件,这是软件的安装程序...

Global site tag (gtag.js) - Google Analytics