`
lzj0470
  • 浏览: 1264687 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

htmlparser获取A标签内容,既然是空

阅读更多
形式是:
<a href="#" class="a4" target=_blank title=" 河北邢台广宗蝎子养殖合作社(常年出售待产蝎)河北省广宗县昆虫养殖合作社,常年提供各地优质种蝎,孕蝎,黄粉虫,土元,免费上门指导高效养殖技术,签合同,包回收,种源优良,价格实惠,诚信经营" onmouseover="showshdiv('141400','4')" onmouseout1="hiddenshdiv()" id="content_gqdw_4">
            <p style="line-height: 150%">[供] 河北邢台广宗蝎子养殖合作社(常年出售待产蝎)河北省广宗县昆</a>

这个是非常简单的一个A标签或者,但是,获取打印出来,结果是:
<a href="#" class="a4" target=_blank title="唐山丰华供应银黑狐种狐" onmouseover="showshdiv('141400','0')" onmouseout1="hiddenshdiv()" id="content_gqdw_4"> </a>

解决办法是:
过滤之前,先替换<p style="line-height: 150%">。



分享到:
评论
2 楼 endual 2012-03-19  
htmlparaser + 正则表达式试过么 ?

1 楼 zc0604 2011-12-17  
其实可以去注册一下p标签就可以了
PrototypicalNodeFactory factory = new PrototypicalNodeFactory ();  
factory.registerTag (new PTag());
 parser.setNodeFactory(factory);


这里的PTag是自己写的一个标签类

import org.htmlparser.tags.CompositeTag;

public class PTag extends CompositeTag{
	private static final long serialVersionUID = -2152927621110873917L;
	private static final String[] mIds = new String[] {"P"};
    
	public String[] getIds (){
	    return (mIds);
	}
	     
	public String[] getEnders (){
	    return (mIds);
	}

	public String getId(){
	    return super.getAttribute("id");
	}

	@Override
	public String getAttribute(String name) {
		return super.getAttribute(name);
	}
}

相关推荐

    扩展HTMLParser对自定义标签的处理能力

    资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...

    HtmlParser

    使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...

    htmlparser抓取网页内容

    本项目以"htmlparser抓取网页内容"为主题,具体实践了如何利用HTMLParser库来从国家专利局的网站上抓取专利状态信息。 首先,我们要理解HTMLParser的工作原理。HTMLParser是Python的内置库,它提供了一个基础的事件...

    htmlparser

    META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....

    htmlparser库与教程

    实际应用中,HTMLParser常与网络请求库(如Apache HttpClient或OkHttp)结合使用,以获取远程网页内容,再进行后续的解析操作。同时,为了提高代码的可维护性和复用性,建议封装自己的数据抓取和处理模块。

    htmlparser.jar文件

    HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...

    htmlparser抓取论坛帖子内容的代码

    HTMLParser遵循事件驱动的模式,它会解析HTML文档并触发一系列的事件,如开始标签、结束标签、文本内容等。开发者可以注册监听器来处理这些事件,从而实现对HTML文档的解析和分析。 1. **安装和导入HTMLParser** ...

    Htmlparser 网页内容抓取java

    例如,你可以使用HTMLParser解析整个网页,然后通过XPath找到特定的元素,如所有的链接(`&lt;a&gt;`标签)。这在进行网络爬虫开发时非常有用,可以提取出网页中的所有链接,进行进一步的分析或者访问。 HTMLParser库还...

    HTMLParser提取网页内容

    可以使用HTMLParser库提供的API来遍历DOM树,查找这些元素并获取其文本内容。 例如,对于标题提取,可以遍历HTML中的所有`&lt;h1&gt;`到`&lt;h6&gt;`标签,然后收集它们的文本;对于正文,可以寻找段落标签或其他可能包含正文...

    htmlparser网页分析

    4. 使用示例:在"HTMLParser使用详解-Node内容.doc"中,可能详细介绍了如何创建和配置解析器对象,设置解析事件处理器,以及如何通过遍历节点来提取或修改HTML内容。例如,可以使用`TagStart`事件捕获元素开始,`...

    c#版htmlparser htmlparser.dll htmlparser源代码

    这些组件可以帮助开发者更好地实现从网络获取HTML内容,然后用HTMLParser进行解析。 总之,`c#版htmlparser htmlparser.dll htmlparser源代码`提供了一个C#实现的HTML解析工具,可以帮助开发者高效地处理HTML文档,...

    htmlParser.jar包

    在实际应用中,HTMLParser通常与其他技术结合使用,例如与网络请求库(如Apache HttpClient或OkHttp)配合,从远程服务器获取HTML内容;或者与数据存储库(如MySQL、MongoDB)集成,将解析后的数据保存到数据库中。...

    java解析html工具htmlparser的jar包及api文档

    例如,以下是一个简单的使用示例,展示如何使用HTMLParser解析一个HTML字符串并打印出所有的`&lt;a&gt;`标签: ```java import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; import org.htmlparser....

    HtmlParser 2.1 码源

    例如,要提取所有`&lt;a&gt;`标签的链接,可以监听`StartElement`事件,并检查元素名称是否为`a`,然后获取`href`属性值。 6. **错误处理和异常** HtmlParser提供了一套完整的错误处理机制,包括抛出`HtmlParseException...

    HTMLParser 2.0

    在实际开发中,结合requests库获取网页内容,然后使用HTMLParser进行解析,是构建网络爬虫的基本流程之一。通过这样的方式,开发者可以从网页中提取所需信息,进行数据分析或存储,满足各种项目需求。 总的来说,...

    htmlparser1.6最新版

    4. **标签过滤与选择**:HTMLParser允许开发者通过指定标签名或CSS选择器来过滤和选择需要处理的HTML元素,这对于提取特定内容非常方便。 5. **字符编码识别**:HTMLParser可以自动检测HTML文档的字符编码,确保...

    htmlParser2.0.jar

    1. **HTML标签解析**:HTMLParser2.0能识别并处理HTML文档中的各种标签,如`&lt;div&gt;`, `&lt;p&gt;`, `&lt;a&gt;`等,帮助开发者提取所需信息。 2. **自定义标签处理**:一个独特的特性是它支持处理自定义的HTML标签,这对于解析...

    Winista.Htmlparser.Net 源码 +Demo

    3. **文本内容提取**:支持提取元素内部的文本内容,这对于网页抓取或数据提取至关重要。 4. **事件驱动的解析模式**:允许开发者在特定元素被解析时注册回调函数,提高代码的可读性和可维护性。 二、设计原理 1. ...

Global site tag (gtag.js) - Google Analytics