用Java的模式匹配来提取网页中所需内容

hojor

浏览: 110971 次
性别:
来自: 北京

最近访客更多访客>>

lh1234561

maxin_1st

xy1234

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java 正则表达式 MySpace

本篇主要以实际例子来说明一下怎么样用java的模式匹配来提取网页中你所需要的内容，比如说你需要提取一个网页中的<title></title>标签内的文字内容该如何做呢？下面我会做一个介绍。介绍之前我先说明一下此系列文章的目的。我们将会持续写一些关于webspider的技术的文章，结合的例子就是我们前一段时间做的一个入门级的爬虫，我们将来也会把这个爬虫整体的共享出来。
好言归正传，进入今天的主题，今天要讲的内容是建立在上一篇基础上的，也就是你需要对上一篇的正则表达式有个了解，至少要能看懂，当然也要对java熟悉。
首先第一个是上面提到的提取<title>标签的内容。先看代码

    public synchronized String parseTitle(String context)
    {
        String result="";
        String patWhTitle="<\\s*?(title)\\s*?>[\\s\\S]*?</\\s*?(title)\\s*?>";
        String patTitle="</?\\s*?(title)\\s*?>";
        Pattern titlePattern=Pattern.compile(patWhTitle,2);
        Matcher titleMatcher=titlePattern.matcher(context);
        Pattern titlePattern2=Pattern.compile(patTitle, 2);

        while(titleMatcher.find())
        {
            String title=titleMatcher.group();
            Matcher titleMatcher2=titlePattern2.matcher(title);
            result+="["+titleMatcher2.replaceAll("")+"]";
        }
        return result;
    }
首先定义两个正则表达式 patWhTitle，这个是要匹配网页中所有<title>标签和标签的内容。patTitle这个正则是只匹配<title>标签。
然后编译匹配等等
本篇所要讲的和上一篇有些不同，多了一步匹配，相信大家都看出来了，这是怎么回事呢？为什么要这么做呢？我结合这个title例子大概讲一下匹配的过程，其他的也都是类似。1、从网页中匹配出所有<title>标签及其内容，e.g<title>myspace</title>。2、从匹配到的string再次匹配出标签。3、然后调用replaceall方法来把标签都替换成“”，只剩下需要的内容。

不知道我是否讲解的清楚了，再贴一个函数来练习下
    public synchronized String parseA(String context)
    {
        String result="";
        String patWhA="<[a]\\s+?[^>]*?>[^<]+?</[a]\\s*?>";
        String patA="</?\\s*?[a][\\s\\S]*?>";
        Pattern aPattern=Pattern.compile(patWhA,2);
        Matcher aMat=aPattern.matcher(context);
        Pattern aPattern2=Pattern.compile(patA,2);
        while(aMat.find())
        {
            String a=aMat.group();
            Matcher mat=aPattern2.matcher(a);
            result+="["+mat.replaceAll("")+"]";
        }
        return result;
    }
这个函数是提取超链接的内容