`
qzxfl008
  • 浏览: 78778 次
  • 性别: Icon_minigender_1
  • 来自: 浙江
社区版块
存档分类
最新评论

html解析页面中的A标签

阅读更多
在heritrix中的自定义继承Extractor的类中,参考那本《开发自己的搜索引擎里》书里的代码,不能很好的解析出页面中的A标签中的url,就用htmlparser来解析出A标签里的url,果然好用。代码如下

private  void filterURL(String source,CrawlURI curi)
	{
		try {
			Parser parser = new Parser(source);
			NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
			NodeList linkList = parser.extractAllNodesThatMatch(linkFilter);
			String url = null;
			for( int i=0; i<linkList.size(); i++)
			{
				LinkTag node = (LinkTag) linkList.elementAt(i);
				url = node.extractLink();
				if(url.matches(PATTERN_STOCK_NEW)) //匹配规则
				{
					//System.out.println(url);
					//若是,则将链接添加到队列中,以备后续处理
					addLinkFromString(curi,url,"",Link.NAVLINK_HOP);
				}
				//System.out.println(url);
			}
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
	}


0
0
分享到:
评论
1 楼 ailongni 2011-11-05  
或许 jsoup 更好用些

相关推荐

    解析带有html标签的json数据

    HTML json parser通常会先将JSON数据中的HTML字符串提取出来,然后使用HTML解析器来解析这些标签,将其转换为结构化的DOM(Document Object Model)树。 在实际应用中,我们可能会遇到以下几种情况: 1. **提取纯...

    nodejs 解析html根据标签提取需要合并的js、css,并且更新html

    nodejs 解析html根据标签提取需要合并的js、css,并且更新html # 简介 &gt; 站点页面上js、css外链过多会导致网页的加载速度过慢,通过合并页面的js、css成一个文件,减少http的开销。 读取config.json,解析html根据 ...

    HTML标签实体解析

    HTML标签实体解析是Web开发中的一个重要概念,尤其是在与iOS应用中的UIWebView交互时。HTML实体是用来表示特殊字符或符号的方法,因为这些字符在HTML源代码中可能有特殊含义或者无法直接显示。例如,小于号"&lt;"和...

    Python给html文件的a标签添加属性

    在Python编程中,处理HTML文件是一项常见的任务,特别是在网页抓取和数据解析领域。BeautifulSoup是一个强大的库,它使得解析HTML和XML文档变得极其简单。本篇将详细讲解如何使用BeautifulSoup来为HTML文件中的a标签...

    匹配html中的所有A标签并替换

    标题 "匹配html中的所有A标签并替换" 涉及的主要知识点是HTML解析和正则表达式在文本处理中的应用。在IT行业中,这通常与网页数据抓取、内容处理或者自动化测试相关。 1. HTML标签:HTML(HyperText Markup ...

    HTML网页内容解析器源码

    在Delphi中,HTML解析通常涉及到以下几个关键知识点: 1. **字符串处理**:HTML源码本质上是字符串,因此,解析器需要具备高效处理字符串的能力,包括查找特定字符或标签,分割字符串等。 2. **正则表达式**:用于...

    CMS标签解析入门示例

    这些标签在页面模板中被插入,并由CMS在渲染页面时进行解析,将相应的数据填充到对应的位置。对于新手开发者来说,理解并熟练掌握标签解析是构建高效CMS的关键步骤。 首先,我们来看一下CMS标签解析的基本流程: 1....

    html 解析器(网页源代码分析)

    在本文中,我们将深入探讨HTML解析器的工作原理、它如何进行网页源代码分析以及如何帮助防止恶意代码。 首先,HTML解析器的作用是将接收到的HTML文档分解成一系列可理解的元素,这些元素构成了网页的结构和内容。这...

    HTML解析源码

    HTML解析源码是编程领域中一个关键的主题,特别是在构建网页爬虫、网页解析器或处理HTML内容的应用程序时。HTML(HyperText Markup Language)是一种标记语言,用于创建和设计网页,而HTML解析则是将HTML文本转换成...

    C#解析html,HtmlAgilityPack

    在.NET开发环境中,C#作为主流的编程语言之一...无论是在爬虫项目中提取数据,还是在网页自动化测试中修改页面元素,HAP都能发挥重要作用。通过学习和熟练掌握这个库,开发者可以提高工作效率,编写出更加健壮的代码。

    一个c语言的html解析

    "html解析"标签则再次强调了其主要功能是对HTML文档进行解析。 【压缩包子文件的文件名称】"cmarkup"很可能是指这个C语言实现的HTML解析器的源代码文件名。通常,"cmarkup"可能是包含解析函数和相关数据结构的C源...

    Delphi通过MSHTML实现一个HTML解析类

    本篇文章将深入探讨如何在Delphi中通过MSHTML组件来实现一个HTML解析类。 首先,MSHTML是一个Microsoft提供的COM接口,它暴露了Internet Explorer的内部引擎,允许开发者在应用程序中嵌入和操作HTML内容。在Delphi...

    HTML文档解析器 HTMLParser

    在浏览器加载HTML文档时,它会使用内置的解析器来解析这些标签,并根据它们构建DOM(文档对象模型)树,这个过程就是HTML解析。 HTMLParser是实现这个解析过程的软件组件。它的主要任务包括识别HTML标记、处理嵌套...

    htmlparse 解析html网页

    HTML解析是Web开发中的一个重要环节,它涉及到从HTML文档中提取有用信息,如文本、链接、图片等。在本篇文章中,我们将深入探讨如何使用HTMLparse库来解析HTML网页,以便进行网页数据抓取。 首先,`htmlparse`通常...

    iOS html解析源码

    4. **libxml2**:这是一个强大的XML和HTML解析库,可以直接在iOS中使用。Swift可以通过C语言接口来调用libxml2的函数,比如`xmlReaderForDoc()`和`xmlTextReaderRead()`等。 5. **SwiftSoup**:这是Swift的一个HTML...

    htmlparser(HTML页面解析)例子

    在实际应用中,HTMLParser通常与其他库(如BeautifulSoup)结合使用,以提供更高级的功能,如选择器和CSS查询,使HTML解析更加灵活和强大。不过,HTMLParser本身提供的基本功能足以应对许多基础的网页抓取任务。 ...

    项目中使用到的解析html富文本

    在IT行业中,富文本解析是开发过程中的常见需求,特别是在Web应用、移动应用以及各种内容管理系统中。富文本指的是包含格式化元素(如字体、颜色、大小、图像、链接等)的文本,与纯文本相比,它能提供更加丰富的...

    使用Jsoup解析html网页

    **Jsoup:HTML解析神器** Jsoup是一款Java库,它为了解析、提取以及操作HTML提供了强大的工具。在Web开发中,我们常常需要处理各种HTML文档,比如抓取网页数据、自动化测试或是构建爬虫。Jsoup以浏览器的方式解析...

    包含html页面解析的网络爬虫程序C#实现

    综上所述,这个C#实现的网络爬虫程序结合了HTML解析技术、树形数据结构和网络编程,实现了从网页中抓取并存储信息的功能。开发者可以依据需求对代码进行扩展,比如增加对JavaScript执行的支持,或者优化爬取策略以...

    htmparser网页解析API文档

    HTML解析是Web开发中的核心部分,尤其是在进行数据抓取、网页自动化或者移动应用中展示网页内容时。HTMLParser提供了丰富的API接口,使得开发者能够方便地解析HTML元素,如标签、属性、文本等。以下是一些关键的知识...

Global site tag (gtag.js) - Google Analytics