- 浏览: 957250 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (385)
- 搜索引擎学习 (62)
- 算法 (1)
- 数据库 (15)
- web开发 (38)
- solr开发 (17)
- nutch 1.2 系统学习 (8)
- cms (1)
- 系统架构 (11)
- linux 与 unix 编程 (16)
- android (15)
- maven (1)
- 关注物流 (1)
- 网址收集 (1)
- 分布式,集群 (1)
- mysql (5)
- apache (1)
- 资料文档备份 (7)
- 上班有感 (0)
- 工作流 (15)
- javascript (1)
- weblogic (1)
- eclipse 集成 (1)
- JMS (7)
- Hibernate (1)
- 性能测试 (1)
- spring (6)
- 缓存cache (1)
- mongodb (2)
- webservice (1)
- HTML5 COCOS2D-HTML5 (1)
- BrowserQuest (2)
最新评论
-
avi9111:
内陷到android, ios, winphone里面也是随便 ...
【HTML5游戏开发】二次开发 BrowserQuest 第一集 -
avi9111:
呵呵,做不下去了吧,没有第二集了吧,游戏是个深坑,谨慎进入,其 ...
【HTML5游戏开发】二次开发 BrowserQuest 第一集 -
excaliburace:
方案3亲测完全可用,顺便解决了我其他方面的一些疑问,非常感谢
spring security 2添加用户验证码 -
yuanliangding:
Spring太强大了。
Spring Data JPA 简单介绍 -
小高你好:
什么是hibernate懒加载?什么时候用懒加载?为什么要用懒加载?
用HTMLParser提取URL页面超链接的一段代码(小试牛刀)
import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
public class GetLinkTest
{
public static void main(String[] args)
{
try
{
// 通过过滤器过滤出<A>标签
Parser parser = new Parser("http://www.google.cn");
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter()
{
// 实现该方法,用以过滤标签
public boolean accept(Node node)
{
if (node instanceof LinkTag)// 标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++)
{
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
}
catch (Exception e)
{
e.printStackTrace();
}
}
}
输出结果:
图片 ==>> [url]http://images.google.cn/imghp?hl=zh-CN&tab=wi[/url]
地图 ==>> [url]http://ditu.google.cn/maps?hl=zh-CN&tab=wl[/url]
资讯 ==>> [url]http://news.google.cn/nwshp?hl=zh-CN&tab=wn[/url]
视频 ==>> [url]http://video.google.cn/?hl=zh-CN&tab=wv[/url]
财经 ==>> [url]http://www.google.cn/finance?hl=zh-CN&tab=we[/url]
<u style=height:22px;vertical-align:top>更多</u> <small>▼</small> ==>> [url]http://www.google.cn/intl/zh-CN/options/[/url]
博客 ==>> [url]http://blogsearch.google.cn/?hl=zh-CN&tab=wb[/url]
生活 ==>> [url]http://shenghuo.google.cn/shenghuo/?hl=zh-CN&tab=w8[/url]
热榜 ==>> [url]http://www.google.cn/rebang/home?hl=zh-CN&tab=w9[/url]
网站导航 ==>> [url]http://daohang.google.cn/?hl=zh-CN&tab=wA[/url]
日历 ==>> [url]http://www.google.com/calendar/render?hl=zh-CN&tab=wc[/url]
照片 ==>> [url]http://picasaweb.google.com/home?hl=zh-CN&tab=wq[/url]
文档 ==>> [url]http://docs.google.com/?hl=zh-CN&tab=wo[/url]
协作平台 ==>> [url]http://sites.google.com/?hl=zh-CN&tab=w3[/url]
输入法 ==>> [url]http://tools.google.com/pinyin/?hl=zh-CN&tab=wI[/url]
工具栏 ==>> [url]http://toolbar.google.com/?hl=zh-CN&tab=wO[/url]
软件精选 ==>> [url]http://pack.google.cn/?hl=zh-CN&tab=wP[/url]
更多 » ==>> [url]http://www.google.cn/intl/zh-CN/options/[/url]
个性化主页 ==>> [url]http://www.google.cn/url?sa=p&pref=ig&pval=3&q=http://www.google.cn/ig/china%3Fhl%3Dzh-CN%26source%3Diglk&usg=AFQjCNGNYfgta9G_BNut0SFGzavY4Y2pjQ[/url]
登录 ==>> [url]https://www.google.com/accounts/Login?continue=http://www.google.cn/&hl=zh-CN[/url]
高级搜索 ==>> [url]http://www.google.cn/advanced_search?hl=zh-CN[/url]
使用偏好 ==>> [url]http://www.google.cn/preferences?hl=zh-CN[/url]
语言工具 ==>> [url]http://www.google.cn/language_tools?hl=zh-CN[/url]
广告计划 ==>> [url]http://www.google.cn/intl/zh-CN/ads/[/url]
Google 大全 ==>> [url]http://www.google.cn/intl/zh-CN/about.html[/url]
Google.com in English ==>> [url]http://www.google.com/ncr[/url]
隐私权 ==>> [url]http://www.google.cn/intl/zh-CN/privacy.html[/url]
发表评论
-
nutch1.4 环境变量设置
2012-04-06 12:52 1720Exception in thread "main& ... -
正则使用
2010-06-18 00:19 1131java正则表达式(java.Regex)HtmlParser ... -
nutch 1.0 读源码,过滤掉不正确的URL实现方法
2010-06-18 00:17 3390nutch 1.0 读源码,过滤掉不正确的URL实现方法: ... -
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputExnutch新发现,为以后备忘
2010-06-16 23:16 2288urls -dir mycrawl -depth 3 -top ... -
HTMLParser 解析html字符串,提取纯文本
2010-05-14 09:59 8318今天在群里问别人怎么提取文本,也没有具体告诉我用什么,只是说用 ... -
HTMLParser的两种使用方法[转]
2010-05-13 23:37 1936HTMLParser的两种使用方法 文章分类:Java编程 ... -
搜索引擎术语
2010-05-05 11:40 1428附录. 术语 B: 半结构化 ... -
影响Lucene索引速度原因以及提高索引速度技巧[转]
2010-04-25 00:11 2741影响Lucene索引速度原因以及提高索引速度技巧 关键字: ... -
如何配置compass的索引位置为相对路径
2009-09-01 19:28 1501Compass是对lucene进行封装 ... -
heritrix 基本介绍
2009-08-01 10:35 3903Heritrix使用小结 1. H ... -
我对HtmlParser 提取网页各属性的总结及示例说明
2009-07-08 13:50 1930/** * 属性过滤器 * @param parser ... -
数学之美 系列十三 信息指纹及其应用
2009-06-25 22:34 10342006年8月3日 上午 11:17:00 ... -
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
2009-06-25 22:27 15112007年7月3日 上午 09:35:00 ... -
深入学习Heritrix---解析处理器(Processor)
2009-06-06 13:17 1626键字: heritrix processor 本节解析与 ... -
深入学习Heritrix---解析Frontier(链接工厂)
2009-06-06 10:02 1213Frontier是Heritrix最核心的组成部分之一,也是最 ... -
深入学习Heritrix---解析CrawlController
2009-06-06 10:00 1383当我们以Web UI方式使用Heritrix时,点击任务开始( ... -
深入学习Heritrix---解析Frontier(链接工厂)
2009-06-03 21:50 1516原创作者: pengranxiang 阅读:231次 ... -
lucene2.0+heritrix示例补充
2009-06-03 21:31 1537由于lucene2.0+heritrix一书示例用的网站( ... -
htmlparser 使用手册
2009-05-30 16:47 29182009-05-08 14:20 需要做一 ... -
Nutch插件机制和Nutch一个插件实例
2009-05-25 23:54 18622007年06月16日 星期六 15:07 Pl ...
相关推荐
下面是一个简单的示例代码,用于提取搜狐网页中的NBA相关信息的超链接: ```java import org.htmlparser.util.*; import org.htmlparser.Parser; import org.htmlparser.filters.*; import org.htmlparser.tags....
为了更直观地展示如何使用HtmlParser提取网页信息,下面给出一个简单的示例: 假设我们需要从一个新闻网站的主页上提取所有的新闻标题及其对应的链接。首先,使用HtmlParser解析主页的HTML代码,然后查找所有的`<a>...
使用HtmlParser 提取百度贴吧中的图片
`WinistaDownload-dll`可能是一个下载库,用于下载网页内容,而`WinistaDownload-code`可能包含了使用这个下载库的示例代码。这些组件可以帮助开发者更好地实现从网络获取HTML内容,然后用HTMLParser进行解析。 ...
HTMLParser 是一个用于解析HTML文档的Java库,它允许开发者以结构化的方式处理网页内容,例如提取特定元素、过滤不需要的标签等。在Web抓取或数据挖掘领域,HTMLParser是一个常用的工具,可以帮助我们从HTML源码中...
在本例中,我们将深入探讨如何使用HTMLParser库解析HTML页面,提取所需信息。 首先,我们需要导入Python的`HTMLParser`模块。在Python 3中,这个模块已经被重命名为`html.parser`,因此应该导入`html.parser`,而...
本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际应用中使用HTMLParser.net。 HTMLParser.net的核心功能包括: 1. **HTML解析**:它能够将HTML字符...
在提供的压缩包中,"lib"目录下的jar文件就是HTMLParser库,将其添加到项目的类路径中,这样就可以在代码中使用这个库了。 接下来,我们需要编写爬虫的核心部分,即解析和提取数据的逻辑。以下是一个简单的示例: ...
2. **HTMLParser-2.0-SNAPSHOT-src.zip**:这是源代码文件,提供了HTMLParser库的源码。通过查看源代码,开发者可以深入理解库的工作原理,学习如何实现类似功能,甚至可以根据需求对其进行修改或扩展。源代码对于...
这段代码展示了如何使用HTMLParser提取WAP页面中的所有链接。 总的来说,HTMLParser是一个强大而灵活的工具,对于需要解析WAP页面的应用,它提供了一种有效的方法来处理HTML内容,无论是提取数据还是进行内容分析。...
本项目就是利用HTMLParser库来编写一个基础的网页爬虫,用于爬取新浪新闻的数据,并将抓取到的数据存储到Excel表格中。以下是关于这个项目的一些关键知识点和实现细节: 1. **HTMLParser库**:HTMLParser是一个开源...
HTMLParser 是一个开源的类库,用于解析 Web 页面。它有两种主要使用方式:extraction 和 transformation。前者用于从网页中萃取出需要的内容,后者用于把 Web 页面中的内容转换为需要的格式。 Extraction(萃取)...
【Java使用HTMLParser提取网页纯文本】\n\n在Java编程中,提取网页纯文本是一项常见的任务,尤其在数据抓取、信息分析等领域。HTMLParser是一个强大的Java库,专门用于解析HTML文档,提取其中的文本内容。下面我们将...
用C#实现HtmlParser的代码 该篇文章主要介绍了用C#实现HtmlParser的两种方法,分别是使用System.Net.WebClient下载网页并使用正则表达式来分析Html内容,以及使用Winista.Htmlparser.Net解析Html。下面我们将详细...
使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...
通过上述分析,我们可以看出这段代码的主要目的是从不同的网站中提取有用的信息,如URL、标题和摘要等。它通过使用HTMLParser库解析HTML文档,并利用自定义的搜索器类来针对不同的网站进行数据提取。这种方法非常...
这个资料包可能包含了关于如何使用HTMLParser从网页中提取数据,尤其是超链接的详细教程或示例代码。 HTMLParser的工作原理是基于解析器模式,它会逐行读取HTML文档,遇到特定的标签(如`<a>`标签,代表超链接)时...
3. **解析HTML**:学习如何使用`HTMLParser`实例解析HTML字符串或从URL读取HTML内容。这通常涉及到创建`Parser`对象,然后调用`parse()`方法。 4. **遍历和访问HTML元素**:HTMLParser提供了对HTML文档节点的遍历...