HtmlCleanner结合xpath用法

gstarwd

浏览: 1563333 次
性别:
来自: 杭州

最近访客更多访客>>

cl_andywin

sagadan

scj2cy

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HtmlAnalysis

编程 ASP HTML C C++

文章分类:Java编程

        HtmlCleaner cleaner = new HtmlCleaner();   
        
        TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml"));   
        //按tag取.   
        Object[] ns = node.getElementsByName("title", true);    //标题   
        
        if(ns.length > 0) {   
            System.out.println("title="+((TagNode)ns[0]).getText());   
        }   
        // /html/body/div[2]/div[4]/div/div/div/div[2]/p
        ns = node.evaluateXPath("//div[@class=\"blkContainerSblkCon\"]/p"); //选取class为指定blkContainerSblkCon的div下面的所有p标签
        for (int i = 0; i < ns.length; i++) {
        	 String in = cleaner.getInnerHtml((TagNode)ns[i]);
             System.out.println("<p>"+in + "</p>");
		}
        String in = cleaner.getInnerHtml((TagNode)ns[0]);
        System.out.println(in);

        System.out.println(((TagNode)ns[0]).getText());

        HtmlCleaner cleaner = new HtmlCleaner();   
        String url = "http://finance.sina.com.cn/nmetal/hjfx.html";
        URL _url = new URL(url);
        TagNode node = cleaner.clean(_url);   
        
        //按tag取.   
        Object[] ns = node.getElementsByName("title", true);    //标题   
        
        if(ns.length > 0) { 
            System.out.println("title="+((TagNode)ns[0]).getText());   
        }  
        
        
        ns = node.evaluateXPath("//*[@class='Frame-Row3-01-C']/table[2]/tbody/tr/td/a"); //选取class为指定blkContainerSblkCon的div下面的所有p
        for (int i = 0; i < ns.length; i++) {
        	
        	//取链接文本
//        	 String in = cleaner.getInnerHtml((TagNode)ns[i]);
//           System.out.println(in);
        	
        	//获取链接的
        	TagNode n = (TagNode) ns[i];
//        	System.out.println(n.getAttributeByName("href"));
        	System.out.println(new URL(_url,n.getAttributeByName("href")).toString());
		}
//        String in = cleaner.getInnerHtml((TagNode)ns[0]);
//        System.out.println(in);

//        System.out.println(((TagNode)ns[0]).getText());
        
//        System.out.println("ul/li:");   
//        //按xpath取   
//        ns = node.evaluateXPath("//div[@class='d_1']//li");   
//        for(Object on : ns) {   
//            TagNode n = (TagNode) on;   
//            System.out.println("\ttext="+n.getText());   
//        }   
//        System.out.println("a:");   
//        //按属性值取   
//        ns = node.getElementsByAttValue("name", "my_href", true, true);   
//        for(Object on : ns) {   
//            TagNode n = (TagNode) on;   
//            System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText());   
//        }

XPath文档：http://www.w3school.com.cn/xpath/xpath_syntax.asp

分享到：

HTMLParser的两种使用方法 | Log4j-按时间和大小增加新日志文件\输出多 ...

2010-04-15 13:24
浏览 3596
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HtmlCleanner结合xpath用法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HtmlCleanner结合xpath用法

评论

发表评论

相关推荐

htmlunit 示例

HTMLParser的两种使用方法

基于Htmlparser的天气预报程序（续）

httpclient（校内网）

httpclient（校内网）

HTTPClient模拟登陆人人网

HtmlCleaner API

htmlcleaner惯用法

htmlcleaner惯用法

htmlcleaner 使用示例.

http://htmlparser.com.cn/

开源网络蜘蛛spider（转载）

基于Spindle的增强HTTP Spider

Cobra: Java HTML 解析器

用htmlparser分析并抽取正文

HtmlParser初步研究

基于Htmlparser的天气预报程序

最近访客更多访客>>