html解析页面中的A标签 - 迟到的炮灰 - ITeye博客

`

qzxfl008

浏览: 80115 次
性别:
来自: 浙江

最近访客更多访客>>

sgq0085

malie0

mazhongxing_jay

chenjun296

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qzxfl008： happysoul 写道 /** * 获取当前时间的后一天 ...
计算下一天
happysoul： /** * 获取当前时间的后一天 * @param da ...
计算下一天
ailongni：或许 jsoup 更好用些
html解析页面中的A标签
qzxfl008： king_c 写道junit4 什么意思啊
lucene3.1.0 简单分词实例
king_c： junit4
lucene3.1.0 简单分词实例

html解析页面中的A标签

博客分类：

java
爬虫heritrix

extractor heritrix 搜索引擎

阅读更多

在heritrix中的自定义继承Extractor的类中，参考那本《开发自己的搜索引擎里》书里的代码，不能很好的解析出页面中的A标签中的url，就用htmlparser来解析出A标签里的url，果然好用。代码如下

private  void filterURL(String source,CrawlURI curi)
	{
		try {
			Parser parser = new Parser(source);
			NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
			NodeList linkList = parser.extractAllNodesThatMatch(linkFilter);
			String url = null;
			for( int i=0; i<linkList.size(); i++)
			{
				LinkTag node = (LinkTag) linkList.elementAt(i);
				url = node.extractLink();
				if(url.matches(PATTERN_STOCK_NEW)) //匹配规则
				{
					//System.out.println(url);
					//若是，则将链接添加到队列中，以备后续处理
					addLinkFromString(curi,url,"",Link.NAVLINK_HOP);
				}
				//System.out.println(url);
			}
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
	}

0
顶

0
踩

分享到：

oracle几个命令备份 | javascript 实现多文件选择

2011-11-05 21:20
浏览 1747
评论(1)
分类:互联网
查看更多

评论

1 楼 ailongni 2011-11-05

或许 jsoup 更好用些

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

解析带有html标签的json数据: HTML json parser通常会先将JSON数据中的HTML字符串提取出来，然后使用HTML解析器来解析这些标签，将其转换为结构化的DOM（Document Object Model）树。在实际应用中，我们可能会遇到以下几种情况： 1. **提取纯...

nodejs 解析html根据标签提取需要合并的js、css，并且更新html: nodejs 解析html根据标签提取需要合并的js、css，并且更新html # 简介 > 站点页面上js、css外链过多会导致网页的加载速度过慢，通过合并页面的js、css成一个文件，减少http的开销。读取config.json,解析html根据 ...

HTML标签实体解析: HTML标签实体解析是Web开发中的一个重要概念，尤其是在与iOS应用中的UIWebView交互时。HTML实体是用来表示特殊字符或符号的方法，因为这些字符在HTML源代码中可能有特殊含义或者无法直接显示。例如，小于号"<"和...

Python给html文件的a标签添加属性: 在Python编程中，处理HTML文件是一项常见的任务，特别是在网页抓取和数据解析领域。BeautifulSoup是一个强大的库，它使得解析HTML和XML文档变得极其简单。本篇将详细讲解如何使用BeautifulSoup来为HTML文件中的a标签...

匹配html中的所有A标签并替换: 标题 "匹配html中的所有A标签并替换" 涉及的主要知识点是HTML解析和正则表达式在文本处理中的应用。在IT行业中，这通常与网页数据抓取、内容处理或者自动化测试相关。 1. HTML标签：HTML（HyperText Markup ...

HTML网页内容解析器源码: 在Delphi中，HTML解析通常涉及到以下几个关键知识点： 1. **字符串处理**：HTML源码本质上是字符串，因此，解析器需要具备高效处理字符串的能力，包括查找特定字符或标签，分割字符串等。 2. **正则表达式**：用于...

CMS标签解析入门示例: 这些标签在页面模板中被插入，并由CMS在渲染页面时进行解析，将相应的数据填充到对应的位置。对于新手开发者来说，理解并熟练掌握标签解析是构建高效CMS的关键步骤。首先，我们来看一下CMS标签解析的基本流程： 1....

html 解析器（网页源代码分析）: 在本文中，我们将深入探讨HTML解析器的工作原理、它如何进行网页源代码分析以及如何帮助防止恶意代码。首先，HTML解析器的作用是将接收到的HTML文档分解成一系列可理解的元素，这些元素构成了网页的结构和内容。这...

HTML解析源码: HTML解析源码是编程领域中一个关键的主题，特别是在构建网页爬虫、网页解析器或处理HTML内容的应用程序时。HTML（HyperText Markup Language）是一种标记语言，用于创建和设计网页，而HTML解析则是将HTML文本转换成...

C#解析html，HtmlAgilityPack: 在.NET开发环境中，C#作为主流的编程语言之一...无论是在爬虫项目中提取数据，还是在网页自动化测试中修改页面元素，HAP都能发挥重要作用。通过学习和熟练掌握这个库，开发者可以提高工作效率，编写出更加健壮的代码。

一个c语言的html解析: "html解析"标签则再次强调了其主要功能是对HTML文档进行解析。【压缩包子文件的文件名称】"cmarkup"很可能是指这个C语言实现的HTML解析器的源代码文件名。通常，"cmarkup"可能是包含解析函数和相关数据结构的C源...

Delphi通过MSHTML实现一个HTML解析类: 本篇文章将深入探讨如何在Delphi中通过MSHTML组件来实现一个HTML解析类。首先，MSHTML是一个Microsoft提供的COM接口，它暴露了Internet Explorer的内部引擎，允许开发者在应用程序中嵌入和操作HTML内容。在Delphi...

C++版HTML解析器: 在实际应用中，C++版HTML解析器常用于网页抓取、内容分析、网页自动化测试等场景。由于C++的高效性能，这类解析器往往能在速度和资源利用上表现优秀，尤其对于处理大量或复杂的HTML文档。同时，通过自定义事件处理器...

HTML文档解析器 HTMLParser: 在浏览器加载HTML文档时，它会使用内置的解析器来解析这些标签，并根据它们构建DOM（文档对象模型）树，这个过程就是HTML解析。 HTMLParser是实现这个解析过程的软件组件。它的主要任务包括识别HTML标记、处理嵌套...

htmlparse 解析html网页: HTML解析是Web开发中的一个重要环节，它涉及到从HTML文档中提取有用信息，如文本、链接、图片等。在本篇文章中，我们将深入探讨如何使用HTMLparse库来解析HTML网页，以便进行网页数据抓取。首先，`htmlparse`通常...

iOS html解析源码: 4. **libxml2**：这是一个强大的XML和HTML解析库，可以直接在iOS中使用。Swift可以通过C语言接口来调用libxml2的函数，比如`xmlReaderForDoc()`和`xmlTextReaderRead()`等。 5. **SwiftSoup**：这是Swift的一个HTML...

htmlparser(HTML页面解析)例子: 在实际应用中，HTMLParser通常与其他库（如BeautifulSoup）结合使用，以提供更高级的功能，如选择器和CSS查询，使HTML解析更加灵活和强大。不过，HTMLParser本身提供的基本功能足以应对许多基础的网页抓取任务。 ...

项目中使用到的解析html富文本: 在IT行业中，富文本解析是开发过程中的常见需求，特别是在Web应用、移动应用以及各种内容管理系统中。富文本指的是包含格式化元素（如字体、颜色、大小、图像、链接等）的文本，与纯文本相比，它能提供更加丰富的...

使用Jsoup解析html网页: **Jsoup：HTML解析神器** Jsoup是一款Java库，它为了解析、提取以及操作HTML提供了强大的工具。在Web开发中，我们常常需要处理各种HTML文档，比如抓取网页数据、自动化测试或是构建爬虫。Jsoup以浏览器的方式解析...

包含html页面解析的网络爬虫程序C#实现: 综上所述，这个C#实现的网络爬虫程序结合了HTML解析技术、树形数据结构和网络编程，实现了从网页中抓取并存储信息的功能。开发者可以依据需求对代码进行扩展，比如增加对JavaScript执行的支持，或者优化爬取策略以...

Global site tag (gtag.js) - Google Analytics