HTMLParser的使用

jinyanhui2008

浏览: 320984 次
性别:
来自: 青岛

最近访客更多访客>>

wyl2317

chorar

xfworld

hiscaler

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

.net PHP HTML

一. 简介
       htmlparser用于对html页面进行解析，它是一个功能比较强大的工具。
       项目首页：http://htmlparser.sourceforge.net/
       下载地址：http://sourceforge.net/project/showfiles.php?group_id=24399
二. 使用举例
       下面通过一个简单的htmlparser的使用举例，来学习htmlparser的使用。代码如下：

package com.amigo.htmlparser;

import java.io.*;
import java.net.URL;
import java.net.URLConnection;

import org.htmlparser.filters.*;
import org.htmlparser.*;
import org.htmlparser.nodes.*;
import org.htmlparser.tags.*;
import org.htmlparser.util.*;
import org.htmlparser.visitors.*;

public class HTMLParserTest {
    /** *//**
     * 入口方法.
     * @param args
     * @throws Exception
     */
    public static void main(String args[]) throws Exception {
        String path = "http://qdjinxin.iteye.com";
        URL url = new URL(path);
        URLConnection conn = url.openConnection();
        conn.setDoOutput(true); 
        
        InputStream inputStream = conn.getInputStream();
        InputStreamReader isr = new InputStreamReader(inputStream, "utf8");
        StringBuffer sb = new StringBuffer();
        BufferedReader in = new BufferedReader(isr);
        String inputLine;
        
        while ((inputLine = in.readLine()) != null) {
            sb.append(inputLine);
            sb.append("\n");
        }
        
        String result = sb.toString();

        readByHtml(result);
        readTextAndLinkAndTitle(result);
    }
    
    /** *//**
     * 按页面方式处理.解析标准的html页面
     * @param content 网页的内容
     * @throws Exception
     */
    public static void readByHtml(String content) throws Exception {
        Parser myParser;
        myParser = Parser.createParser(content, "utf8");
        HtmlPage visitor = new HtmlPage(myParser);
        myParser.visitAllNodesWith(visitor);

        String textInPage = visitor.getTitle();
        System.out.println(textInPage);
        NodeList nodelist;
        nodelist = visitor.getBody();
        
        System.out.print(nodelist.asString().trim());
    }

    /** *//**
     * 分别读纯文本和链接.
     * @param result 网页的内容
     * @throws Exception
     */
    public static void readTextAndLinkAndTitle(String result) throws Exception {
        Parser parser;
        NodeList nodelist;
        parser = Parser.createParser(result, "utf8");
        NodeFilter textFilter = new NodeClassFilter(TextNode.class);
        NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
        NodeFilter titleFilter = new NodeClassFilter(TitleTag.class);
        OrFilter lastFilter = new OrFilter();
        lastFilter.setPredicates(new NodeFilter[] { textFilter, linkFilter, titleFilter });
        nodelist = parser.parse(lastFilter);
        Node[] nodes = nodelist.toNodeArray();
        String line = "";
        
        for (int i = 0; i < nodes.length; i++) {
            Node node = nodes[i];
            if (node instanceof TextNode) {
                TextNode textnode = (TextNode) node;
                line = textnode.getText();
            } else if (node instanceof LinkTag) {
                LinkTag link = (LinkTag) node;
                line = link.getLink();
            } else if (node instanceof TitleTag) {
                TitleTag titlenode = (TitleTag) node;
                line = titlenode.getTitle();
            }
            
            if (isTrimEmpty(line))
                continue;
            System.out.println(line);
        }
    }
    
    /** *//**
     * 去掉左右空格后字符串是否为空
     */
    public static boolean isTrimEmpty(String astr) {
        if ((null == astr) || (astr.length() == 0)) {
            return true;
        }
        if (isBlank(astr.trim())) {
            return true;
        }
        return false;
    }

    /** *//**
     * 字符串是否为空:null或者长度为0.
     */
    public static boolean isBlank(String astr) {
        if ((null == astr) || (astr.length() == 0)) {
            return true;
        } else {
            return false;
        }
    }
}

分享到：

使用jasperreports制作报表（导出pdf exce ... | HttpURLConnection使用中遇到的一个问题

2009-03-11 17:32
浏览 1934
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HTMLParser的使用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HTMLParser的使用

评论

发表评论

相关推荐

常见NIO开源框架（MINA、xSocket）学习 （转自javaeye博客）

解决 PermGen space Tomcat内存设置

proxool 多数据源动态切换，刚刚一网友问我，顺便写的一个demo

（转）sql批量执行效率对比

转自CSDN以作备份，使用java获取文档的编码格式

从bbs中看到的问题：从大量数据中取top100，整理的思路

Eclipse导出JavaDoc中文乱码问题解决

搞懂java中的synchronized关键字

JDialog 居中 方法二同样适合jFrame

如果查询数据的时候报内存溢出咋办？

关于java堆栈溢出的那些事

手工将tomcat安装为服务及tomcat命令说明

Java 读取 INI 文件的示例

java数据流压缩

用java发送邮件

java窗口最小化到任务栏

Java 读/写文件文本文件的示例

java读写消息资源文件

如果 点击子窗口父窗口也随之关闭 请看

读取资源文件的N种方法- -

最近访客更多访客>>

常见NIO开源框架（MINA、xSocket）学习（转自javaeye博客）

JDialog 居中方法二同样适合jFrame

如果点击子窗口父窗口也随之关闭请看