`
tangchenglin
  • 浏览: 24400 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

HtmlParser解析百度指数

阅读更多
检索词为:java
主要获得java的相关检索词和上升最快相关检索词。获得相关的百分比

package cn.com.htmlparser.use;  import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.HasAttributeFilter; import org.htmlparser.tags.Span; import org.htmlparser.tags.TableColumn; import org.htmlparser.tags.TableRow; import org.htmlparser.tags.TableTag; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException;  public class BaiduZhishu {      /**      * @author rrong_m      * @param args      * @throws ParserException       */     public static void getXiangguan(String url) throws ParserException//相关检索词     {         Parser parser=new Parser(url);         parser.setEncoding("gb2312");         NodeFilter filter=new HasAttributeFilter("style","margin-left:10px; float:left");         NodeList nodelist=parser.extractAllNodesThatMatch(filter);         NodeList n1=P(nodelist.elementAt(0).getChildren(),"class","tdkeyr");         NodeList n2=P(nodelist.elementAt(0).getChildren(),"class","bar");         for(int i=0;i<n1.size();i++)         {             System.out.print(n1.elementAt(i).toPlainTextString()+"||||");             Node node=n2.elementAt(i);             if(node instanceof Span)             {                 Span s=(Span) node;                 String temp=s.getAttribute("style");                 System.out.println(temp.split("%")[0].split(":")[1]);             }//获得百分比。。        }     }     public static NodeList P(NodeList nodelist,String a,String b)     {         NodeFilter filter=new HasAttributeFilter(a,b);         nodelist=nodelist.extractAllNodesThatMatch(filter, true);         return nodelist;     }     public static void getShangSheng(String url) throws ParserException//上升最快的检索词     {         Parser parser=new Parser(url);         parser.setEncoding("gb2312");         NodeFilter filter=new HasAttributeFilter("style","margin-left:10px; float:right");         NodeList nodelist=parser.extractAllNodesThatMatch(filter);         if(nodelist.size()>0)         {             Node node=nodelist.elementAt(0);             if(node instanceof TableTag)             {                 TableTag table=(TableTag) node;                 for(TableRow tr:table.getRows())                 {                     String temp="";                     for(TableColumn tc:tr.getColumns())                     {                         temp=temp+tc.toPlainTextString();                     }                     System.out.println(temp);                 }             }         }     }     public static void main(String[] args) throws ParserException {         getXiangguan("http://index.baidu.com/main/word.php?word=java");         getShangSheng("http://index.baidu.com/main/word.php?word=java");      }  }
0
0
分享到:
评论
1 楼 lenxeon 2011-04-14  
推荐个百度指数抓取的地方:
[url =http://www.zendlab.com/soso/baiduIndex/]zend实验室[/url]

相关推荐

    htmlparser解析html分页

    HTMLParser是一个用于解析HTML文档的库,尤其在处理非结构化或不标准的HTML时非常有用。这个库可能被用于从网页中提取数据,比如在爬虫项目中,或者进行自动化测试时解析页面内容。本篇文章将深入探讨HTMLParser的...

    htmlparser解析Html的jar包和源文件包(两个)

    HTMLParser是一款专为Java开发人员设计的开源库,用于解析HTML文档。这个工具包小巧而强大,能够处理不规则的HTML结构,对于处理网络爬虫、网页数据提取或需要解析HTML内容的应用程序来说,是非常实用的。在提供的...

    htmlparser解析

    htmlparser解析html,获得需要的字段

    使用HtmlParser 提取百度贴吧中的图片

    使用HtmlParser 提取百度贴吧中的图片

    htmlparser解析API

    HTMLParser是一个纯Java编写的库,专门用于解析和处理HTML文档。它不依赖任何其他Java库,使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和...

    Java正则表达式详解+基于HTMLParser解析HTML网页

    如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.

    htmlparser(HTML页面解析)例子

    HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者以事件驱动的方式处理HTML文档的结构。这个库特别适用于从不规范的HTML源码中提取数据,因为网页内容的格式可能会因各种原因而不尽完美。在本例中,我们...

    使用HTMLParser解析网页,找出文章后下载保存

    本篇文章将深入探讨如何使用HTMLParser库来解析网页,查找文章内容,并将其下载保存。HTMLParser是Python标准库中的一个模块,专门用于解析HTML和XML文档。 首先,我们需要了解HTMLParser的基本用法。HTMLParser是...

    java解析html工具htmlparser的jar包及api文档

    HTMLParser是一个Java库,专为解析HTML而设计。它提供了对HTML文档的解析能力,使得开发者可以方便地处理网页内容,提取有用的信息或者进行数据抓取。这个工具在IT行业中,尤其是在Web开发和数据处理领域,有着广泛...

    android htmlparser解析

    标题已经哼明白了,这里下载下来作为library引入即可。 这里是jar下载:http://sourceforge.net/projects/htmlparser/ (ps:不过导入jar前,要重新编译jar,要不在Android工程了不可用)

    Html解析助手htmlparser.jar

    2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML**:调用解析器的`parse`方法,传入HTML源码或输入流,开始解析过程。 4. **处理解析事件**:注册事件处理器,...

    Winista.Htmlparser.Net 解析Html 的.net类库

    HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...

    htmlparser_Java网页解析器

    在事件驱动模式下,HTMLParser会监听并触发一系列的解析事件,如遇到开始标签、结束标签、文本内容等。开发者可以通过注册事件处理器来响应这些事件,从而提取所需的数据。这种方式对于处理大量HTML文档且只需要关注...

    解析htmlparser的所有jar包

    然后,你可以按照HTMLParser的API文档编写代码,创建解析器实例,设置事件处理器,以及进行所需的解析操作。 总的来说,HTMLParser提供了一个强大且灵活的工具,可以帮助Java开发者在处理HTML时避免许多常见的头痛...

    htmlparser

    按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...

    android 解析html (htmlParser)库和源码

    因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到dwParser(android工程)工程中,就可以直接...

    HtmlParser

    使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...

    HTMLParser.net源代码HTMLParser.net使用demo

    4. **事件驱动的解析**:HTMLParser.net提供了一个事件模型,当解析到特定元素或属性时,会触发事件。开发者可以订阅这些事件来实现自定义逻辑。 5. **灵活性**:除了基本的HTML解析,HTMLParser.net还支持XML和SVG...

    HTML文档解析器 HTMLParser

    总之,HTMLParser是网页解析过程中的关键组件,理解和掌握其工作原理对于提升前端开发技能和优化网页性能具有重要意义。通过学习和实践,我们可以更好地应对HTML解析带来的挑战,从而创造出更加高效、易用的网页应用...

    c#版htmlparser htmlparser.dll htmlparser源代码

    在C#中,HTMLParser可能采用了递归下降解析器或基于事件的解析器模式。递归下降解析器通常使用函数或方法的递归来匹配HTML标记,而基于事件的解析器则在遇到特定的HTML元素时触发事件,使得处理更加灵活。 标签`c# ...

Global site tag (gtag.js) - Google Analytics