Htmlparser

xuyongping

浏览: 123980 次
性别:
来自: 部落格

最近访客更多访客>>

wuhoujian322

Coding626626

两个萝卜

stepsforward

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

总结

Google HTML C C++C#

htmlparser
　　htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或
　　提取html。它能超高速解析html，而且不会出错。
　　毫不夸张地说，htmlparser就是目前最好的html解析和分析的工具。
　　无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。

取得一段html代码里面所有的链接C#版本，java版本类似：
　　string htmlcode = "<HTML><HEAD><TITLE>AAA</TITLE></HEAD><BODY>" + ...... + "</BODY></HTML>";
　　Parser parser = Parser.CreateParser(htmlcode, "GBK");
　　HtmlPage page = new HtmlPage(parser);
　　try
　　{ parser.VisitAllNodesWith(page);}
　　catch (ParserException e1)
　　{ e1 = null;}
　　NodeList nodelist = page.Body;
　　NodeFilter filter = new TagNameFilter("A");
　　nodelist = nodelist.ExtractAllNodesThatMatch(filter, true);
　　for (int i = 0; i < nodelist.Size(); i++)
　　{
　　LinkTag link=(LinkTag) nodelist.ElementAt(i);
　　System.Console.Write(link.GetAttribute("href") + "\n");
　　}

有效的链接：http://www.yeeach.com/2008/05/19/htmlparser%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97/

主要是如下几种方式

采用Visitor方式访问Html
try {
    Parser parser = new Parser();
    parser.setURL(”http://www.google.com”);
    parser.setEncoding(parser.getEncoding());
    NodeVisitor visitor = new NodeVisitor() {
        public void visitTag(Tag tag) {
            logger.fatal(”testVisitorAll() Tag name is :”
                    + tag.getTagName() + ” \n Class is :”
                    + tag.getClass());
        }

    };

    parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
    e.printStackTrace();
}

采用Filter方式访问html
try {

    NodeFilter filter = new NodeClassFilter(LinkTag.class);
    Parser parser = new Parser();
    parser.setURL(”http://www.google.com”);
    parser.setEncoding(parser.getEncoding());
    NodeList list = parser.extractAllNodesThatMatch(filter);
    for (int i = 0; i < list.size(); i++) {
        LinkTag node = (LinkTag) list.elementAt(i);
        logger.fatal(”testLinkTag() Link is :” + node.extractLink());
    }
} catch (Exception e) {
    e.printStackTrace();
}

采用org.htmlparser.beans方式
另外htmlparser 还在org.htmlparser.beans中对一些常用的方法进行了封装，以简化操作，例如：

Parser parser = new Parser();

LinkBean linkBean = new LinkBean();
linkBean.setURL(”http://www.google.com”);
URL[] urls = linkBean.getLinks();

for (int i = 0; i < urls.length; i++) {
    URL url = urls[i];
    logger.fatal(”testLinkBean() -url is :” + url);
}

分享到：

java 遍历目录下的文件 | 工作总结

2008-10-23 15:08
浏览 1729
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Htmlparser

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Htmlparser

评论

发表评论

相关推荐

CDN技术关键点

Nginx安装

weblogic初学习

Spring 依赖注入详解

CentOs IP NDS的设置

反射器模式

linux ，VI命令编辑器

堆和栈

超时任务

ReentrantLock 到底锁定了哪个对象了？

BlockingQueue使用

线程池

异步执行线程并可以得到返回值

Oracle rowid 优化分页

dmp命令导数据库

Struts2.0

全面整合spring管理struts，spring管理hibernate

BoneCp的设置

tomcat工程部署记录

Spring + Hibernate 配置BoneCp

最近访客更多访客>>