`

用htmlparser提取table信息

阅读更多

htmlparser1.6
提取tr似乎有些问题,直接用css selector提取的tr冗余,tr里面还有tr。
所以这里多做了些处理。请看代码。

  public static Map<String,String> parseList(String url) {
    Map<String,String> rlt=new LinkedHashMap<String,String>();
    NodeFilter filter=new CssSelectorNodeFilter (".className tr");
    filter = new AndFilter(filter, new NotFilter(new HasChildFilter(new CssSelectorNodeFilter ("tr"))));
    Parser parser;
    try {
      parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(filter);
      for(int i=0;i<list.size();i++){
        Node tr=list.elementAt(i);
        parser = new Parser(tr.toHtml());
        NodeList tds = parser.extractAllNodesThatMatch(new CssSelectorNodeFilter ("td"));
        String key=tds.elementAt(0).toPlainTextString();
        String value=tds.elementAt(1).toPlainTextString();
        rlt.put(key, value);
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }

 

考虑一下
考虑一下

 

  • 大小: 15 KB
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    JAVA htmlparser 使用实例

    下面的代码示例展示了如何读取HTML文件的内容,并利用`HtmlParser`从中提取第一个`&lt;table&gt;`标签的相关信息。 #### 示例代码分析 首先,我们需要读取HTML文件的内容。这里使用了`BufferedReader`和`...

    Java使用HtmlParser实现简单的网络爬虫

    这里我们使用了HtmlParser库,它是一个开源的Java库,专门用于解析HTML文档,提取和处理网页上的信息。以下是如何使用HtmlParser实现网络爬虫的关键知识点: 1. **HtmlParser库**:HtmlParser是一个强大的HTML解析...

    HTMLParser抽取Web网页正文信息.doc

    例如,为了提取`&lt;table&gt;`、`&lt;p&gt;`和`&lt;div&gt;`等可能包含主题信息的标签,可以使用`NodeClassFilter`结合`OrFilter`来实现复合过滤逻辑。 ```java NodeFilter[] filters = new NodeFilter[3]; filters[0] = new ...

    HTMLParser抽取Web网页正文信息

    HTMLParser 是一个强大的工具,用于解析和分析HTML文档,它能帮助我们从网页中抽取主要信息,排除掉无关的导航、广告和版权等噪音内容。...这种方法在网页爬虫、内容分析和信息提取等领域具有广泛的应用价值。

    用htmlparser分析并抽取正文

    在尝试使用HTMLParser进行正文抽取时,作者提到了几种常见的方法及其局限性: 1. **配置模板**:由于网页结构各异,预先为每个网站配置模板并不实际。 2. **视觉匹配**:这种方法对结构规范的网页有效,但无法应对...

    网络爬虫htmlparser

    然后,使用HTMLParser解析这个内容,查找包含基金数据的表格标签(如`&lt;table&gt;`),进一步找到表头(`&lt;th&gt;`)和数据单元格(`&lt;td&gt;`)。通过分析表格结构,可以提取出每行数据,并将其转换为"FundTableBean"实例。 在...

    基于Htmlparser的天气预报程序

    标题 "基于Htmlparser的天气预报程序" 暗示了我们正在讨论一个使用特定解析库(Htmlparser)的Java应用程序,其主要功能是获取并显示不同城市的天气预报信息。Htmlparser是一个Java库,用于解析HTML文档,提取所需...

    htmlparser下载网页

    本篇文章将围绕一个具体的示例程序来详细探讨 HTMLParser 的使用方法。 #### 二、示例程序分析 该示例程序名为 `TestYahoo`,其主要功能是从指定的 URL (`http://sports.sina.com.cn/iframe/nba/live/`) 下载网页...

    HTMLparser 测试代码

    在Web开发中,HTMLparser通常被用在自动化任务、网页抓取或数据挖掘项目中。本篇将深入探讨HTMLparser的测试代码及其相关知识点。 首先,`ParserTest.java`可能是一个Java类,用于实现对HTMLparser的测试。在Java中...

    基于统计的网页正文信息抽取

    在IT领域,网页正文信息抽取是一项重要的技术,它主要用于从大量的网页数据中提取出有用的信息,如新闻报道、产品描述等。"基于统计的网页正文信息抽取"是一种利用统计学方法来识别和提取网页主要内容的技术。本文将...

    将HTML转成text,横向表格用TAB分开

    在IT领域,转换HTML到纯文本是一项常见的任务,特别是在数据处理和信息提取中。这个压缩包文件提供的C++源代码正是为了实现这一目的,特别是针对包含横向表格的HTML文档。让我们详细了解一下这些文件以及其中涉及的...

    jsoup攫取你所需的信息

    综上所述,jsoup作为一个强大的HTML解析库,不仅简化了从网页中提取信息的过程,还提供了清理、操作和安全处理HTML的功能。无论你是要进行Web抓取、数据分析还是构建DOM操作的项目,jsoup都是一个不可多得的工具。在...

    Java爬虫框架.pdf

    Java爬虫框架是使用Java语言编写的爬虫程序,它能够按照既定的规则,自动地从互联网上抓取信息。爬虫框架的设计旨在简化爬虫程序的开发,使其更加易于管理和扩展。Java爬虫框架通常包含多个组件,以便于对网络请求、...

    python实现将html表格转换成CSV文件的方法

    1. **HTMLParser 模块的使用** - HTMLParser 是 Python 内置的一个模块,用于解析 HTML 文档。 - 在这个例子中,我们使用 `HTMLParser` 类来创建一个自定义的解析器类 `html2csv`,该类能够将 HTML 表格转换为 CSV...

    爬虫代码matlab-resume_projects:展示项目

    XML或者HTMLParser工具箱可以解析网页结构,提取所需信息。 2. **数据抓取策略**:爬虫可能采用了递归爬取、深度优先或广度优先策略,通过URL解析和链接提取来遍历整个网站或特定部分。 3. **网页解析**:MATLAB中...

    JAVA上百实例源码以及开源项目源代码

    得到RSA密钥对,产生Signature对象,对用私钥对信息(info)签名,用指定算法产生签名对象,用私钥初始化签名对象,将待签名的数据传送给签名对象(须在初始化之后),用公钥验证签名结果,使用公钥初始化签名对象,用于...

    python standerd labrary中文版

    - 函数如`copyreg.pickle()`, `copyreg.dispatch_table`等。 - **pprint模块** - 提供了一个美观打印Python数据结构的方法。 - 函数如`pprint.pprint()`, `pprint.pformat()`等。 - **repr模块**(已废弃) - ...

Global site tag (gtag.js) - Google Analytics