htmlparser提取正文

gcgmh

浏览: 355932 次
性别:
来自: 北京

最近访客更多访客>>

kevin.shi

12697459

Yan_Sunny

leoeco2000

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Parser_html

.net HTML

htmlparser提取正文，提取新浪等门户首页是不太干净

mport org.htmlparser.Parser; 
import org.htmlparser.beans.StringBean; 
import org.htmlparser.filters.NodeClassFilter; 
import org.htmlparser.parserapplications.StringExtractor; 
import org.htmlparser.tags.BodyTag; 
import org.htmlparser.util.NodeList; 
import org.htmlparser.util.ParserException; 
 
public class GetContent { 
    
	public void getContentUsingStringBean(String url) { 
        StringBean sb = new StringBean(); 
        sb.setLinks(true);           
        sb.setCollapse(true);  
        sb.setReplaceNonBreakingSpaces(true);// If true regular space 
        sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html"); 
        System.out.println("The Content is :\n" + sb.getStrings()); 
 
    } 
    
    public void getContentUsingStringExtractor(String url, boolean link) { 
        StringExtractor se = new StringExtractor(url); 
        String text = null; 
        try { 
            text = se.extractStrings(link); 
            System.out.println("The content is :\n" + text); 
        } catch (ParserException e) { 
            e.printStackTrace(); 
        } 
    } 
 
    public void getContentUsingParser(String url) { 
        NodeList nl; 
        try { 
            Parser p = new Parser(url); 
            nl = p.parse(new NodeClassFilter(BodyTag.class)); 
            BodyTag bt = (BodyTag) nl.elementAt(0); 
            System.out.println(bt.toPlainTextString()); 
            } catch (ParserException e) { 
            e.printStackTrace(); 
        } 
    } 
    
    public static void main(String[] args) {
    	GetContent g = new GetContent();
//    	g.getContentUsingStringBean("");
//    	g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
    	g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
	}

分享到：

nekohtml的2个小例子 | 通过百度获取天气预报

2009-09-21 16:34
浏览 2732
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser提取正文

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser提取正文

评论

发表评论

相关推荐

HtmlCleanner结合xpath用法

java 正则表达式

htmlparser获取网页上所有有用链接的方法

htmlparser解析自定义标签功能

nekohtml使用笔记

htmlparser使用例子（全）

nekohtml经典小例子一个

nekohtml的2个小例子

通过百度获取天气预报

一个很好的htmlparser的学习blog

httpclient htmlparser来查询手机号相关信息

nekohtml 用法

htmlparser 精确提取的一些代码

获取meta里的keywords及description的方法

最近访客更多访客>>