`

Html解析 新工具 HtmlCleanner

阅读更多

    

Java代码
  1.       HtmlCleaner cleaner = new HtmlCleaner();     
  2.         
  3.       TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml"));     
  4.       //按tag取.     
  5.       Object[] ns = node.getElementsByName("title"true);    //标题     
  6.         
  7.       if(ns.length > 0) {     
  8.           System.out.println("title="+((TagNode)ns[0]).getText());     
  9.       }     
  10.       // /html/body/div[2]/div[4]/div/div/div/div[2]/p  
  11.       ns = node.evaluateXPath("//div[@class=\"blkContainerSblkCon\"]/p"); // 选取class为指定blkContainerSblkCon的 div下面的所有p标签  
  12.       for (int i = 0; i < ns.length; i++) {  
  13.          String in = cleaner.getInnerHtml((TagNode)ns[i]);  
  14.            System.out.println("<p>"+in + "</p>");  
  15. }  
  16.       String in = cleaner.getInnerHtml((TagNode)ns[0]);  
  17.       System.out.println(in);  
  18.   
  19.       System.out.println(((TagNode)ns[0]).getText());   
        HtmlCleaner cleaner = new HtmlCleaner();   
        
        TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml"));   
        //按tag取.   
        Object[] ns = node.getElementsByName("title", true);    //标题   
        
        if(ns.length > 0) {   
            System.out.println("title="+((TagNode)ns[0]).getText());   
        }   
        // /html/body/div[2]/div[4]/div/div/div/div[2]/p
        ns = node.evaluateXPath("//div[@class=\"blkContainerSblkCon\"]/p"); //选取class为指定blkContainerSblkCon的div下面的所有p标签
        for (int i = 0; i < ns.length; i++) {
        	 String in = cleaner.getInnerHtml((TagNode)ns[i]);
             System.out.println("<p>"+in + "</p>");
		}
        String in = cleaner.getInnerHtml((TagNode)ns[0]);
        System.out.println(in);

        System.out.println(((TagNode)ns[0]).getText()); 



Java 代码
  1.         HtmlCleaner cleaner = new HtmlCleaner();     
  2.         String url = "http://finance.sina.com.cn/nmetal/hjfx.html";  
  3.         URL _url = new URL(url);  
  4.         TagNode node = cleaner.clean(_url);     
  5.           
  6.         //按tag取.     
  7.         Object[] ns = node.getElementsByName("title"true);    //标题     
  8.           
  9.         if(ns.length > 0) {   
  10.             System.out.println("title="+((TagNode)ns[0]).getText());     
  11.         }    
  12.           
  13.           
  14.         ns = node.evaluateXPath("//*[@class='Frame-Row3-01-C']/table[2]/tbody/tr/td/a"); // 选取class为指定blkContainerSblkCon的 div下面的所有p  
  15.         for (int i = 0; i < ns.length; i++) {  
  16.               
  17.             //取链接文本  
  18. //           String in = cleaner.getInnerHtml((TagNode)ns[i]);  
  19. //           System.out.println(in);  
  20.               
  21.             //获取链接的  
  22.             TagNode n = (TagNode) ns[i];  
  23. //          System.out.println(n.getAttributeByName("href"));  
  24.             System.out.println(new URL(_url,n.getAttributeByName("href")).toString());  
  25.         }  
  26. //        String in = cleaner.getInnerHtml((TagNode)ns[0]);  
  27. //        System.out.println(in);  
  28.   
  29. //        System.out.println(((TagNode)ns[0]).getText());  
  30.           
  31. //        System.out.println("ul/li:");     
  32. //        //按xpath取     
  33. //        ns = node.evaluateXPath("//div[@class='d_1']//li");     
  34. //        for(Object on : ns) {     
  35. //            TagNode n = (TagNode) on;     
  36. //            System.out.println("\ttext="+n.getText());     
  37. //        }     
  38. //        System.out.println("a:");     
  39. //        //按属性值取     
  40. //        ns = node.getElementsByAttValue("name", "my_href", true, true);     
  41. //        for(Object on : ns) {     
  42. //            TagNode n = (TagNode) on;     
  43. //            System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText());     
  44. //        } 

分享到:
评论

相关推荐

    java xml解析工具类 java xml解析工具类

    java xml解析工具类 java xml解析工具类java xml解析工具类 java xml解析工具类java xml解析工具类 java xml解析工具类java xml解析工具类 java xml解析工具类java xml解析工具类 java xml解析工具类java xml解析...

    国标32960报文解析对比工具

    《国标32960报文解析对比工具详解》 在信息技术领域,尤其是在通信系统的设计与维护中,遵循标准规范至关重要。国标32960,即《电力自动化设备通信规约》是我国电力系统通信领域的重要标准之一,它规定了电力自动化...

    json离线解析工具

    在处理JSON数据时,一个有效的工具是至关重要的,尤其是对于开发者来说,能够快速查看、格式化和编辑JSON数据的离线解析工具更是必不可少。 标题中的“json离线解析工具”指的是无需互联网连接即可使用的JSON解析...

    短信PDU解析工具

    短信PDU解析工具是一种专门用于处理和解析PDU(Protocol Data Unit)格式的短信内容的软件。在无线通信中,特别是在GSM(Global System for Mobile Communications)系统中,短信是以PDU模式传输的,这是一种二进制...

    modbus数据类型解析工具

    "Modbus数据类型解析工具"是专为理解并测试Modbus协议中的数据类型设计的实用程序。这款工具能够帮助用户解析Modbus报文,进而确认和验证寄存器中的数据类型,确保通信的准确性和效率。 在Modbus协议中,数据是通过...

    101、104电力规约报文解析工具

    \104 104工具\报文分析软件\IEC8705(报文翻译工具) \\为101 104报文解析工具 \104 104工具\报文分析软件\报文解析器 \\为101 104报文解析工具 \104 104工具\模拟服务端客户端软件\Peugeot \\为模拟客户端软件,小巧...

    PMA报文解析工具

    《PMA报文解析工具详解》 在电力自动化和通信领域,PMA报文解析工具因其对IEC101、103、104通讯规约的强大支持而备受关注。这些通信规约是电力系统中数据交换的基础,理解和掌握它们对于从事相关工作的专业人士至关...

    迅雷下载链接解析工具

    迅雷下载链接解析工具是一款专为了解决特定下载工具限制问题而设计的实用软件。它主要功能是将迅雷、电驴(eMule)、旋风等非标准下载链接转换成通用的HTTP链接,使用户能够用任何支持HTTP协议的下载工具或浏览器...

    java解析html工具htmlparser的jar包及api文档

    总的来说,HTMLParser是一个强大的工具,它允许开发者以编程的方式处理HTML,无论是为了数据提取、网页抓取还是其他需要解析HTML的场景。通过其API文档,开发者可以深入学习和利用这个库,实现更复杂的HTML处理任务...

    LAS点云数据解析工具

    LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云数据解析工具LAS点云...

    网盘地址解析工具

    网盘地址解析工具是一种专门用于处理和解析网络存储服务(如百度网盘、阿里云盘等)中的加密链接的软件。在当前的互联网环境中,许多网盘...随着网盘服务的发展和安全性的提升,这类工具也在不断进化,以适应新的挑战。

    ELF解析工具 v1.7(elf格式解析工具)

    支持全部ELF类型解析。支持32位/64位elf文件自适应解析、可解析elf文件头、程序头、节头、字符表、符号表、hash表、版本定义表、版本依赖表、动态信息表等。 更多详细介绍请访问:...

    11--376.1报文解析器.zip_376.1_376.1报文_国网376.1_国网376.1报文解析工具_报文解析工具

    国网376.1报文解析工具,基本的报文都能正确解析

    曙光QQ解析工具 LCQQParser

    曙光QQ解析工具LCQQParser是一款专门针对QQ协议数据进行解析的高效工具,它在IT行业中主要用于帮助用户理解和分析QQ通信中的各种数据包。QQ作为一款广泛使用的即时通讯软件,其内部的数据交换涉及到复杂的网络协议和...

    pb解析json工具

    标题提到的"pb解析json工具"是一种专门用于处理protobuf(简称pb)与JSON两种数据格式相互转换的工具。这两种格式各有优势,广泛应用于不同场景。 首先,让我们了解一下JSON(JavaScript Object Notation)。JSON是...

    5sing音乐基地批量解析下载工具1.01绿色免注册版破小孩

    5sing音乐基地批量解析下载工具-超级助手(5sing音乐基地下载器)是一款绿色免费的由网友破小孩制作的5sing中国原创音乐基地下载地址解析软件。 5Sing音乐解析是一款基于网页的在线音乐解析工具,跨平台、绿色、方便...

    Milk-Tea-解析工具 2.2.3.1

    《Milk-Tea-解析工具 2.2.3.1》是一款专为音乐爱好者设计的实用软件,尤其适用于那些对音质有较高追求的用户。它主要功能是帮助用户解析并下载高质量的音乐资源,使用户能够在本地欣赏到如同平台上的高音质音乐体验...

    8583报文解析工具源码

    标题中的“8583报文解析工具源码”指的是一个专门用于解析ISO8583报文的软件工具,其源代码是基于Qt Creator这一跨平台的C++集成开发环境编写的。ISO8583是一种广泛应用于金融交易系统的报文格式标准,主要用于银行...

    iec101,103,104,cdt规约报文解析工具

    本篇文章将深入探讨这些规约以及相关的报文解析工具。 首先,IEC 101是早期的通用规约,主要用于简单的遥测、遥信、遥控和遥调功能。它基于ASCII码,易于理解和实现,但效率较低,适合于低带宽和不太复杂的通信环境...

    iec104,iec101解析工具

    **IEC104与IEC101解析工具详解** IEC104和IEC101是国际电工委员会(International Electrotechnical Commission)制定的两种通信协议,主要用于电力系统的自动化设备之间进行数据交换。这两种协议在电力监控、调度...

Global site tag (gtag.js) - Google Analytics