[置顶] HTMLParser使用详解（4）- 通过Visitor访问内容

博客分类：

搜索引擎

HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。下面介绍使用Visitor访问内容的方法。4.1 NodeVisitor从简单方面的理解，Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点，对于符合条件的节点进行处理。实际的结果异曲同工，两种不同的方法可以达到相同的结果。下面是一个最常见的NodeVisitro的例子。测试代码： public static void main(String[] args) { try{ ...

2008-07-31 21:30
浏览 6246
评论(1)

[置顶] HTMLParser使用详解（3）- 通过Filter访问内容

博客分类：

搜索引擎

XHTML HTML 正则表达式编程 D语言

HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter：AndFilterNot ...

2008-07-31 21:30
浏览 16663
评论(4)

[置顶] HTMLParser使用详解（2）- Node内容

博客分类：

搜索引擎

XHTML HTML 数据结构 .net

HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。请看Node的定义：public interface Node extends Cloneable;Node中包含的方法有几类：对于树型结构进行遍历的函数，这些函数最容易理解：Node getParent ()：取得父节点NodeList getChildren ()：取得子节点的列表Node getFirstChild ()：取得第一个子节点Node getLastChild ()：取得最后一个子节点Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹，直译太麻烦而 ...

2008-07-31 21:29
浏览 14775
评论(5)

[置顶] HTMLParser使用详解（1）- 初始化Parser

博客分类：

搜索引擎

.net 搜索引擎 HTML 工作

在研究搜索引擎的开发中，对于HTML网页的处理是核心的一个环节。网上有很多开源的代码，对于Java来说，HTMLParser是比较著名并且得到广泛应用的一个。HTMLParser的主页是http://htmlparser.sourceforge.net/，最后的更新是2006年9月的1.6版。不过没关系，HTML的内容已经很久没有大的变化了，HTMLParser处理起来基本没有任何问题。HTMLParser具有小巧，快速的优点，缺点是相关文档比较少（英文的也少），很多功能需要自己摸索。对于初学者还是要费一些功夫的，而一旦上手以后，会发现HTMLParser的结构设计很巧妙，非常实用，基本你的各种 ...

2008-07-31 21:28
浏览 27778
评论(0)

HtmlParser初探--使用Nodefilter和Visitor进行网页分析

博客分类：

搜索引擎

JSF 正则表达式编程 HTML Yahoo

最近在做html页面转化成jsf页面的工作，尝试过使用正则表达式、dom4j等方法，都没有取得很好的结果。（html-->jsf会另写一篇文章进行讨论）现在在使用htmlparser对html进行解析，对于html页面的解析htmlparser是一个功能比较强大的� ...

2008-07-31 21:34
浏览 3605
评论(0)

使用HtmlParser解析HTML

博客分类：

搜索引擎

HTML

如果要对HTML进行解析,提取HTML的数据或者修改HTML数据,HtmlParser是一个不错的选择.使用HtmlParser可以解析本地和网络上的HTML数据: Parser parser = new Parser( new Winista.Text.HtmlParser.Http.HttpProtocol(new Uri("uriString")));Parser parser = new Parser( new Winista.Text.HtmlParser.Lex.Lexer( "HtmlString" ) );System.IO.Stream ...

2008-07-31 21:33
浏览 4881
评论(0)

扩展 HTMLParser 对自定义标签的处理能力

博客分类：

搜索引擎

WAP Go 脚本 ASP.net HTML

本文阐述如何利用 HTMLParser 项目对 HTML 或者 WML 文档中出现的一些特殊的或者是自定义的标签进行处理。 HTMLParser 是一个用来解析 HTML 文档的开放源码项目，它具有小巧、快速、使用简单的特点以及拥有强大的功能。对该项目还� ...

2008-07-31 21:32
浏览 3791
评论(0)

从HTML中攫取你所需的信息

博客分类：

搜索引擎

HTML 项目管理浏览器数据结构 Eclipse

本文并非想通过分析HTML的语法然后从中解析出数据，这样做实现困难而且没有什么实际应用的意义，或者应该这样说：我们并不想自己去实现一个HTML语法的分析器。我们要做的仅仅是从HTML中提取我们所需的信息。不同于XML这种 ...

2008-07-31 21:31
浏览 3232
评论(0)

htmlparser使用指南

博客分类：

搜索引擎

CSS Google HTML 单元测试 .net

需要做一个垂直搜索引擎，比较了nekohtml和htmlparser 的功能，尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好（htmlunit也用的是nekohtml），但感觉 nekohtml的测试用例和文档都比htmlparser都少，而且htmlparser基本上能够满足垂直 ...

2008-07-31 21:31
浏览 18947
评论(0)

可折叠的模仿XP风格的菜单

博客分类：

javascript 特效

XP

可折叠的模仿XP风格的菜单

2007-11-18 20:44
浏览 2083
评论(1)

java 图象处理

博客分类：

JAVA基础知识

Java

方法一: (利用imageio类的读写函数) import javax.imageio.ImageIO; import java.io.File; import java.io.IOException; import java.awt.image.BufferedImage; public class ChangeImageStyle { public static void main(String args[]) throws IOException ...

2007-11-07 19:35
浏览 2447
评论(0)

ifram的详细用法

博客分类：

其他Html-XML等

ASP 框架 HTML 浏览器 IE

ifram的详细用法2007-06-09 15:27IFRAM的详细用法: <IFRAME>用于设置文本或图形的浮动图文框或容器。 BORDER <IFRAME BORDER="3">IFRAME> 设定围绕图文框的边缘宽度 ...

2007-10-31 10:56
浏览 5100
评论(1)

详解struts2中struts.properties

博客分类：

Struts

Struts velocity 框架 freemarker 应用服务器

Struts 2框架有两个核心配置文件: struts.xml和struts.properties 其中struts.xml文件主要负责管理应用中的Action映射，以及该Action包含的Result定义等。除此之外，Struts 2框架还包含一个struts.properties文件，该文件定义了Struts 2框架的大量属性，开发者可以通过改变这些属性来满足应用的需求。 ...

2007-10-25 00:17
浏览 2733
评论(0)

struts2的struts.properties配置文件详解

博客分类：

Struts

Struts velocity Spring Apache freemarker

struts.action.extension The URL extension to use to determine if the request is meant for a Struts action 用URL扩展名来确定是否这个请求是被用作Struts action，其实也就是设置 action的后缀，例如login.do的\'do\'字。 struts.configuration The org.apache.struts2.config.Configuration implementation class ...

2007-10-24 23:55
浏览 2207
评论(0)

FCKeditor的使用

博客分类：

FCKeditor

fckeditor Servlet Web JSP Flash

引：最近在做一个BLOG演示程序，用到了在线文本编辑器，以前一直用eWebEditor。后来发现FCKeditor是开源的，所以就转用这个了，这篇文章介绍了FCKeditor-2.4.3及FCKeditor.java-2.3.2的基本使用。新发现：原来CSDN博客系统的在线文本编辑器用的也是FCKeditor。不过不太厚道，把人家的“关于”也去掉了. 一、FCKeditor介绍 FCKeditor 这个开源的HTML 文本编辑器可以让web 程序拥有如MS Word 这样强大的编辑功能。FCKeditor 支持当前流行的浏览器如IE 5.5+, Firefox 1.0+, Mozilla ...

2007-10-24 21:51
浏览 2051
评论(4)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] HTMLParser使用详解（4）- 通过Visitor访问内容

[置顶] HTMLParser使用详解（3）- 通过Filter访问内容

[置顶] HTMLParser使用详解（2）- Node内容

[置顶] HTMLParser使用详解（1）- 初始化Parser

HtmlParser初探--使用Nodefilter和Visitor进行网页分析

使用HtmlParser解析HTML

扩展 HTMLParser 对自定义标签的处理能力

从HTML中攫取你所需的信息

htmlparser使用指南

可折叠的模仿XP风格的菜单

java 图象处理

ifram的详细用法

详解struts2中struts.properties

struts2的struts.properties配置文件详解

FCKeditor的使用

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>