`

用HTMLParser提取URL页面超链接的一段代码(小试牛刀)

阅读更多

用HTMLParser提取URL页面超链接的一段代码(小试牛刀)

package htmlparser;

import java.util.HashMap;
import java.util.Map;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;

public class GetLinkTest
{

  public static void main(String[] args)
  {

    try
    {
      // 通过过滤器过滤出<A>标签
      Parser parser = new Parser("http://www.google.cn");
      NodeList nodeList = parser
          .extractAllNodesThatMatch(new NodeFilter()
          {
            // 实现该方法,用以过滤标签
            public boolean accept(Node node)
            {
              if (node instanceof LinkTag)// 标记
                return true;
              return false;
            }

          });
      // 打印
      for (int i = 0; i < nodeList.size(); i++)
      {
        LinkTag n = (LinkTag) nodeList.elementAt(i);
        System.out.print(n.getStringText() + " ==>> ");
        System.out.println(n.extractLink());
      }
    }
    catch (Exception e)
    {
      e.printStackTrace();
    }

  }

}

输出结果:
图片 ==>> [url]http://images.google.cn/imghp?hl=zh-CN&tab=wi[/url]
地图 ==>> [url]http://ditu.google.cn/maps?hl=zh-CN&tab=wl[/url]
资讯 ==>> [url]http://news.google.cn/nwshp?hl=zh-CN&tab=wn[/url]
视频 ==>> [url]http://video.google.cn/?hl=zh-CN&tab=wv[/url]
财经 ==>> [url]http://www.google.cn/finance?hl=zh-CN&tab=we[/url]
<u style=height:22px;vertical-align:top>更多</u> <small>&#9660;</small> ==>> [url]http://www.google.cn/intl/zh-CN/options/[/url]
博客 ==>> [url]http://blogsearch.google.cn/?hl=zh-CN&tab=wb[/url]
生活 ==>> [url]http://shenghuo.google.cn/shenghuo/?hl=zh-CN&tab=w8[/url]
热榜 ==>> [url]http://www.google.cn/rebang/home?hl=zh-CN&tab=w9[/url]
网站导航 ==>> [url]http://daohang.google.cn/?hl=zh-CN&tab=wA[/url]
日历 ==>> [url]http://www.google.com/calendar/render?hl=zh-CN&tab=wc[/url]
照片 ==>> [url]http://picasaweb.google.com/home?hl=zh-CN&tab=wq[/url]
文档 ==>> [url]http://docs.google.com/?hl=zh-CN&tab=wo[/url]
协作平台 ==>> [url]http://sites.google.com/?hl=zh-CN&tab=w3[/url]
输入法 ==>> [url]http://tools.google.com/pinyin/?hl=zh-CN&tab=wI[/url]
工具栏 ==>> [url]http://toolbar.google.com/?hl=zh-CN&tab=wO[/url]
软件精选 ==>> [url]http://pack.google.cn/?hl=zh-CN&tab=wP[/url]
更多 &raquo; ==>> [url]http://www.google.cn/intl/zh-CN/options/[/url]
个性化主页 ==>> [url]http://www.google.cn/url?sa=p&pref=ig&pval=3&q=http://www.google.cn/ig/china%3Fhl%3Dzh-CN%26source%3Diglk&usg=AFQjCNGNYfgta9G_BNut0SFGzavY4Y2pjQ[/url]
登录 ==>> [url]https://www.google.com/accounts/Login?continue=http://www.google.cn/&hl=zh-CN[/url]
高级搜索 ==>> [url]http://www.google.cn/advanced_search?hl=zh-CN[/url]
使用偏好 ==>> [url]http://www.google.cn/preferences?hl=zh-CN[/url]
语言工具 ==>> [url]http://www.google.cn/language_tools?hl=zh-CN[/url]
广告计划 ==>> [url]http://www.google.cn/intl/zh-CN/ads/[/url]
Google 大全 ==>> [url]http://www.google.cn/intl/zh-CN/about.html[/url]
Google.com in English ==>> [url]http://www.google.com/ncr[/url]
隐私权 ==>> [url]http://www.google.cn/intl/zh-CN/privacy.html[/url]

分享到:
评论

相关推荐

    HTMLParser提取网页超链接研究

    下面是一个简单的示例代码,用于提取搜狐网页中的NBA相关信息的超链接: ```java import org.htmlparser.util.*; import org.htmlparser.Parser; import org.htmlparser.filters.*; import org.htmlparser.tags....

    HtmlParser提取网页信息的设计与实现

    为了更直观地展示如何使用HtmlParser提取网页信息,下面给出一个简单的示例: 假设我们需要从一个新闻网站的主页上提取所有的新闻标题及其对应的链接。首先,使用HtmlParser解析主页的HTML代码,然后查找所有的`&lt;a&gt;...

    使用HtmlParser 提取百度贴吧中的图片

    使用HtmlParser 提取百度贴吧中的图片

    c#版htmlparser htmlparser.dll htmlparser源代码

    `WinistaDownload-dll`可能是一个下载库,用于下载网页内容,而`WinistaDownload-code`可能包含了使用这个下载库的示例代码。这些组件可以帮助开发者更好地实现从网络获取HTML内容,然后用HTMLParser进行解析。 ...

    基于HTMLParser 信息提取的网络爬虫设计

    4. **HTMLParser信息提取**:利用HTMLParser从缓存服务器中的页面提取出与生活类主题相关的目标URL。这一步骤是整个爬虫设计的关键所在,确保了所抓取信息的相关性和准确性。 5. **目标URL表Target_Url**:存储从...

    HTMLParser提取网页内容

    HTMLParser 是一个用于解析HTML文档的Java库,它允许开发者以结构化的方式处理网页内容,例如提取特定元素、过滤不需要的标签等。在Web抓取或数据挖掘领域,HTMLParser是一个常用的工具,可以帮助我们从HTML源码中...

    htmlparser(HTML页面解析)例子

    在本例中,我们将深入探讨如何使用HTMLParser库解析HTML页面,提取所需信息。 首先,我们需要导入Python的`HTMLParser`模块。在Python 3中,这个模块已经被重命名为`html.parser`,因此应该导入`html.parser`,而...

    HTMLParser.net源代码HTMLParser.net使用demo

    本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括: 1. **HTML解析**:它能够将HTML字符...

    HtmlParser 实现简易爬虫

    在提供的压缩包中,"lib"目录下的jar文件就是HTMLParser库,将其添加到项目的类路径中,这样就可以在代码中使用这个库了。 接下来,我们需要编写爬虫的核心部分,即解析和提取数据的逻辑。以下是一个简单的示例: ...

    HTMLParser 2.0最新jar API 源代码

    2. **HTMLParser-2.0-SNAPSHOT-src.zip**:这是源代码文件,提供了HTMLParser库的源码。通过查看源代码,开发者可以深入理解库的工作原理,学习如何实现类似功能,甚至可以根据需求对其进行修改或扩展。源代码对于...

    htmlparser的jar包

    这段代码展示了如何使用HTMLParser提取WAP页面中的所有链接。 总的来说,HTMLParser是一个强大而灵活的工具,对于需要解析WAP页面的应用,它提供了一种有效的方法来处理HTML内容,无论是提取数据还是进行内容分析。...

    基于htmlparser的网页爬虫和java调用excel代码

    本项目就是利用HTMLParser库来编写一个基础的网页爬虫,用于爬取新浪新闻的数据,并将抓取到的数据存储到Excel表格中。以下是关于这个项目的一些关键知识点和实现细节: 1. **HTMLParser库**:HTMLParser是一个开源...

    HTMLParser 使用举例

    HTMLParser 是一个开源的类库,用于解析 Web 页面。它有两种主要使用方式:extraction 和 transformation。前者用于从网页中萃取出需要的内容,后者用于把 Web 页面中的内容转换为需要的格式。 Extraction(萃取)...

    java使用htmlparser提取网页纯文本例子

    【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...

    用C#实现HtmlParser的代码

    用C#实现HtmlParser的代码 该篇文章主要介绍了用C#实现HtmlParser的两种方法,分别是使用System.Net.WebClient下载网页并使用正则表达式来分析Html内容,以及使用Winista.Htmlparser.Net解析Html。下面我们将详细...

    HtmlParser

    使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...

    java htmlparser

    通过上述分析,我们可以看出这段代码的主要目的是从不同的网站中提取有用的信息,如URL、标题和摘要等。它通过使用HTMLParser库解析HTML文档,并利用自定义的搜索器类来针对不同的网站进行数据提取。这种方法非常...

    HTMLParser资料

    这个资料包可能包含了关于如何使用HTMLParser从网页中提取数据,尤其是超链接的详细教程或示例代码。 HTMLParser的工作原理是基于解析器模式,它会逐行读取HTML文档,遇到特定的标签(如`&lt;a&gt;`标签,代表超链接)时...

    htmlparser库与教程

    3. **解析HTML**:学习如何使用`HTMLParser`实例解析HTML字符串或从URL读取HTML内容。这通常涉及到创建`Parser`对象,然后调用`parse()`方法。 4. **遍历和访问HTML元素**:HTMLParser提供了对HTML文档节点的遍历...

Global site tag (gtag.js) - Google Analytics