HTMLParser初试

sjsky

浏览: 924650 次
性别:
来自: 上海

最近访客更多访客>>

joadge1983

ouaijsun

码猿工

u010469169

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

opensource

Java HTMLParser sourceforge HTML OpenSource

blog迁移至:http://www.micmiu.com

HTMLParser是目前Java领域中解析HTML应用比较广泛的一个。
HTMLParser的主页是http://htmlparser.sourceforge.net/
初次接触HTML Parser，它的核心模块是org.htmlparser.Parser类
介绍几种Parser 初始化的方法，详细见代码：

package com.htmlparser;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;

/**
 * 
 * @author Michael
 */
public class TestMain {

    private static String ENCODE = "UTF-8";

    /**
     * @param args
     */
    public static void main(String[] args) {
        TestMain test = new TestMain();
        // String url =
        // "http://www.google.com.hk/search?hl=zh-CN&source=hp&q=nero9%E5%88%BB%E5%BD%95ape&aq=f&aqi=&aql=&oq=&gs_rfai=";
        String url = "http://www.baidu.com/s?wd=nero9%BF%CC%C2%BCape&oq=nero9k&rsp=1&f=3&sugT=6679";
        test.testNodeFilter(url);

    }

    /**
     * 几种初始化的方法
     */
    private void testInitParser() {
        try {
            Parser parser1 = new Parser();
            parser1.setURL("http://www.baidu.com");
            parser1.setEncoding(parser1.getEncoding());

            // url 初始化的方法
            HttpURLConnection.setFollowRedirects(true);
            URL netUrl = new URL("http://www.baidu.com");
            HttpURLConnection con = (HttpURLConnection) netUrl.openConnection();
            con.setInstanceFollowRedirects(false);
            con.connect();
            Parser parser2 = new Parser(con);

            // 根据字符串初始化
            String htmlString = this.readHtmlFile("d:/test/test.html");
            Parser parser3 = Parser.createParser(htmlString, ENCODE);

            // 根据字符串初始化
            String htmlStr1 = "<html><head><title>Test</title>"
                    + "<link href=’/test01/css.css' text='text/css' rel='stylesheet'/>"
                    + "</head><body><div><a href='www.baidu.com'  target='_blank'>baidu</a></div>"
                    + "<div><a href='www.sina.com' target='_blank'>sina</a></div></body></html>";
            Parser parser4 = new Parser(htmlString);

        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    /**
     * NodeFilter
     * @param url
     */
    private void testNodeFilter(String url) {
        System.out.println("NodeFilter start...");
        try {
            HttpURLConnection.setFollowRedirects(true);
            URL netUrl = new URL(url);
            HttpURLConnection con = (HttpURLConnection) netUrl.openConnection();
            con.setInstanceFollowRedirects(false);
            con.connect();
            Parser parser = new Parser(con);
            parser.setEncoding(parser.getEncoding());

            NodeFilter filter = new TagNameFilter("A");
            NodeList list = parser.extractAllNodesThatMatch(filter);
            for (int i = 0; i < list.size(); i++) {
                System.out.println(list.elementAt(i).toHtml());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

        System.out.println("NodeFilter end");
    }

    /**
     * 读取HTML文件
     * @param htmlFileName
     * @return
     */
    private String readHtmlFile(String htmlFileName) {
        BufferedReader bis = null;
        try {
            bis = new BufferedReader(new InputStreamReader(new FileInputStream(
                    new File(htmlFileName)), ENCODE));
            StringBuffer htmlsb = new StringBuffer();
            String readTemp;
            while ((readTemp = bis.readLine()) != null) {
                htmlsb.append(readTemp);
            }
            bis.close();
            return htmlsb.toString();
        } catch (Exception e) {
            return null;
        } finally {
            if (null != bis) {
                try {
                    bis.close();
                } catch (IOException ioe) {
                    ioe.printStackTrace();
                }
            }
        }
    }
}

1
顶

1
踩

分享到：

HttpClient、HTMLParser解决Google搜索结果 ... | 利用java反射原理写了一个简单赋值和取值通 ...

2010-11-03 09:22
浏览 1953
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HTMLParser初试

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HTMLParser初试

评论

发表评论

相关推荐

github更新自己Fork的代码

Eclipse+OpenORB+ORBStudio配置CORBA开发环境

openfire数据库配置说明

Shiro在web应用中实现验证码功能

Openfire插件开发坏境配置指南

Openfire源码导入Eclipse编译配置指南

Openfire服务端安装和配置

iText实现直接把URL网页内容生成PDF

iText XML Worker实现HTML转PDF

iText XML Worker修改源码完美支持HTML中文字符转PDF

iText生成PDF的书签

iText生成PDF入门

jldap实现Java对LDAP的基本操作

dom4j使用小结(基础入门级)

Simple XML

Open Flash Chart2实现动态曲线图小结

HttpClient、HTMLParser解决Google搜索结果的页面无法解析问题

Open Flash Chart2应用(实现flash另存为图片)

最近访客更多访客>>