htmlparser获取A标签内容，既然是空 - Loiy - ITeye博客

`

lzj0470

浏览: 1291299 次
性别:
来自: 深圳

最近访客更多访客>>

gljhh

hedgehog12

chen88358323

wyx065747

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

水野哲也：不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8"
caobo_cb： import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇
caobo_cb：你好 Util包没有
[ java版]新浪微博之ruquest_token篇
小桔子：你好！我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧
donghustone：谢谢大神！
用JSmooth制作java jar文件的可执行exe文件教程(图文)

htmlparser获取A标签内容，既然是空

博客分类：

htmlparser

阅读更多

形式是：
<a href="#" class="a4" target=_blank title=" 河北邢台广宗蝎子养殖合作社（常年出售待产蝎）河北省广宗县昆虫养殖合作社，常年提供各地优质种蝎，孕蝎，黄粉虫，土元，免费上门指导高效养殖技术，签合同，包回收，种源优良，价格实惠，诚信经营" onmouseover="showshdiv('141400','4')" onmouseout1="hiddenshdiv()" id="content_gqdw_4">
<p style="line-height: 150%">[供] 河北邢台广宗蝎子养殖合作社（常年出售待产蝎）河北省广宗县昆</a>

这个是非常简单的一个A标签或者，但是，获取打印出来，结果是：
<a href="#" class="a4" target=_blank title="唐山丰华供应银黑狐种狐" onmouseover="showshdiv('141400','0')" onmouseout1="hiddenshdiv()" id="content_gqdw_4"> </a>

解决办法是：
过滤之前，先替换<p style="line-height: 150%">。

分享到：

SecureCRT自动记录日志 | 新浪show视频聊天室_你我他都能激情

2011-09-22 15:39
浏览 1911
评论(2)
分类:开源软件
查看更多

评论

2 楼 endual 2012-03-19

htmlparaser + 正则表达式试过么？

1 楼 zc0604 2011-12-17

其实可以去注册一下p标签就可以了

PrototypicalNodeFactory factory = new PrototypicalNodeFactory ();  
factory.registerTag (new PTag());
 parser.setNodeFactory(factory);

这里的PTag是自己写的一个标签类


import org.htmlparser.tags.CompositeTag;

public class PTag extends CompositeTag{
	private static final long serialVersionUID = -2152927621110873917L;
	private static final String[] mIds = new String[] {"P"};
    
	public String[] getIds (){
	    return (mIds);
	}
	     
	public String[] getEnders (){
	    return (mIds);
	}

	public String getId(){
	    return super.getAttribute("id");
	}

	@Override
	public String getAttribute(String name) {
		return super.getAttribute(name);
	}
}

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

扩展HTMLParser对自定义标签的处理能力: 资源名称：扩展HTMLParser对自定义标签的处理能力内容简介： HTMLParser是一个用来解析HTML文档的开放源码项目，它具有小巧、快速、使用简单的特点以及拥有强大的功能。现在该项目的最新版本是Integration Build ...

HtmlParser: 使用HTMLParser，我们可以解析网页内容，提取所需信息，如文章标题、链接、图片等。以下是一些核心概念和步骤： 1. **创建自定义解析器**: 首先，我们需要继承Python的`HTMLParser`类，并重写其方法，如`handle_...

htmlparser抓取网页内容: 本项目以"htmlparser抓取网页内容"为主题，具体实践了如何利用HTMLParser库来从国家专利局的网站上抓取专利状态信息。首先，我们要理解HTMLParser的工作原理。HTMLParser是Python的内置库，它提供了一个基础的事件...

htmlparser: META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....

htmlparser库与教程: 实际应用中，HTMLParser常与网络请求库（如Apache HttpClient或OkHttp）结合使用，以获取远程网页内容，再进行后续的解析操作。同时，为了提高代码的可维护性和复用性，建议封装自己的数据抓取和处理模块。

c#版htmlparser htmlparser.dll htmlparser源代码: 这些组件可以帮助开发者更好地实现从网络获取HTML内容，然后用HTMLParser进行解析。总之，`c#版htmlparser htmlparser.dll htmlparser源代码`提供了一个C#实现的HTML解析工具，可以帮助开发者高效地处理HTML文档，...

htmlparser.jar文件: HTMLParser提供了多种方法来访问和操作解析树，比如`parseContent()`用于获取整个文档的节点列表，`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器，`getFirstNodeWithTag()`用于找到第一个特定标签的...

htmlparser抓取论坛帖子内容的代码: HTMLParser遵循事件驱动的模式，它会解析HTML文档并触发一系列的事件，如开始标签、结束标签、文本内容等。开发者可以注册监听器来处理这些事件，从而实现对HTML文档的解析和分析。 1. **安装和导入HTMLParser** ...

Htmlparser 网页内容抓取java: 例如，你可以使用HTMLParser解析整个网页，然后通过XPath找到特定的元素，如所有的链接（`<a>`标签）。这在进行网络爬虫开发时非常有用，可以提取出网页中的所有链接，进行进一步的分析或者访问。 HTMLParser库还...

HTMLParser提取网页内容: 可以使用HTMLParser库提供的API来遍历DOM树，查找这些元素并获取其文本内容。例如，对于标题提取，可以遍历HTML中的所有`<h1>`到`<h6>`标签，然后收集它们的文本；对于正文，可以寻找段落标签或其他可能包含正文...

htmlparser网页分析: 4. 使用示例：在"HTMLParser使用详解-Node内容.doc"中，可能详细介绍了如何创建和配置解析器对象，设置解析事件处理器，以及如何通过遍历节点来提取或修改HTML内容。例如，可以使用`TagStart`事件捕获元素开始，`...

htmlParser.jar包: 在实际应用中，HTMLParser通常与其他技术结合使用，例如与网络请求库（如Apache HttpClient或OkHttp）配合，从远程服务器获取HTML内容；或者与数据存储库（如MySQL、MongoDB）集成，将解析后的数据保存到数据库中。...

java解析html工具htmlparser的jar包及api文档: 例如，以下是一个简单的使用示例，展示如何使用HTMLParser解析一个HTML字符串并打印出所有的`<a>`标签： ```java import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; import org.htmlparser....

Winista.HtmlParser.zip: 例如，如果你想从HTML中获取所有`<a>`标签，可以使用提供的查询方法，该方法接受CSS选择器作为参数，返回匹配的元素列表。然后，你可以进一步访问每个元素的属性，如`href`，以获取链接地址。此外，Winista....

htmlparser的jar包: 这些事件可以是开始标签、结束标签、文本内容等。通过注册监听器，你可以对这些事件进行处理。例如，你可以创建一个自定义的`NodeVisitor`来遍历整个HTML文档，或者使用`Parser`的`print`方法将HTML源码按照特定格式...

HtmlParser 2.1 码源: 例如，要提取所有`<a>`标签的链接，可以监听`StartElement`事件，并检查元素名称是否为`a`，然后获取`href`属性值。 6. **错误处理和异常** HtmlParser提供了一套完整的错误处理机制，包括抛出`HtmlParseException...

HTMLParser 2.0: 在实际开发中，结合requests库获取网页内容，然后使用HTMLParser进行解析，是构建网络爬虫的基本流程之一。通过这样的方式，开发者可以从网页中提取所需信息，进行数据分析或存储，满足各种项目需求。总的来说，...

htmlparser1.6最新版: 4. **标签过滤与选择**：HTMLParser允许开发者通过指定标签名或CSS选择器来过滤和选择需要处理的HTML元素，这对于提取特定内容非常方便。 5. **字符编码识别**：HTMLParser可以自动检测HTML文档的字符编码，确保...

Global site tag (gtag.js) - Google Analytics