用htmlparser提取table信息 - fishatsea - ITeye博客

`

bg090721

浏览: 48137 次

最近访客更多访客>>

xiaochunyong

495991717

wangsla

byrain

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

SoftMiner：用SCM-manager吧https://bitbucket. ...
git server搭建[test only]

用htmlparser提取table信息

博客分类：

htmlparser
java

htmlparser CssSelectorNodeFilter AndFilter NotFilter HasChildFilter

阅读更多

htmlparser1.6
提取tr似乎有些问题，直接用css selector提取的tr冗余，tr里面还有tr。
所以这里多做了些处理。请看代码。

  public static Map<String,String> parseList(String url) {
    Map<String,String> rlt=new LinkedHashMap<String,String>();
    NodeFilter filter=new CssSelectorNodeFilter (".className tr");
    filter = new AndFilter(filter, new NotFilter(new HasChildFilter(new CssSelectorNodeFilter ("tr"))));
    Parser parser;
    try {
      parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(filter);
      for(int i=0;i<list.size();i++){
        Node tr=list.elementAt(i);
        parser = new Parser(tr.toHtml());
        NodeList tds = parser.extractAllNodesThatMatch(new CssSelectorNodeFilter ("td"));
        String key=tds.elementAt(0).toPlainTextString();
        String value=tds.elementAt(1).toPlainTextString();
        rlt.put(key, value);
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }

考虑一下

查看图片附件

分享到：

ubuntu上装liferay | CssSelectorNodeFilter用法

2012-05-13 08:24
浏览 1424
评论(0)
分类:开源软件
查看更多

评论

发表评论

文章已被作者锁定，不允许评论。

相关推荐

JAVA htmlparser 使用实例: 下面的代码示例展示了如何读取HTML文件的内容，并利用`HtmlParser`从中提取第一个`<table>`标签的相关信息。 #### 示例代码分析首先，我们需要读取HTML文件的内容。这里使用了`BufferedReader`和`...

Java使用HtmlParser实现简单的网络爬虫: 这里我们使用了HtmlParser库，它是一个开源的Java库，专门用于解析HTML文档，提取和处理网页上的信息。以下是如何使用HtmlParser实现网络爬虫的关键知识点： 1. **HtmlParser库**：HtmlParser是一个强大的HTML解析...

HTMLParser抽取Web网页正文信息.doc: 例如，为了提取`<table>`、`<p>`和`<div>`等可能包含主题信息的标签，可以使用`NodeClassFilter`结合`OrFilter`来实现复合过滤逻辑。 ```java NodeFilter[] filters = new NodeFilter[3]; filters[0] = new ...

HTMLParser抽取Web网页正文信息: HTMLParser 是一个强大的工具，用于解析和分析HTML文档，它能帮助我们从网页中抽取主要信息，排除掉无关的导航、广告和版权等噪音内容。...这种方法在网页爬虫、内容分析和信息提取等领域具有广泛的应用价值。

用htmlparser分析并抽取正文: 在尝试使用HTMLParser进行正文抽取时，作者提到了几种常见的方法及其局限性： 1. **配置模板**：由于网页结构各异，预先为每个网站配置模板并不实际。 2. **视觉匹配**：这种方法对结构规范的网页有效，但无法应对...

网络爬虫htmlparser: 然后，使用HTMLParser解析这个内容，查找包含基金数据的表格标签（如`<table>`），进一步找到表头（`<th>`）和数据单元格（`<td>`）。通过分析表格结构，可以提取出每行数据，并将其转换为"FundTableBean"实例。在...

基于Htmlparser的天气预报程序: 标题 "基于Htmlparser的天气预报程序" 暗示了我们正在讨论一个使用特定解析库（Htmlparser）的Java应用程序，其主要功能是获取并显示不同城市的天气预报信息。Htmlparser是一个Java库，用于解析HTML文档，提取所需...

htmlparser下载网页: 本篇文章将围绕一个具体的示例程序来详细探讨 HTMLParser 的使用方法。 #### 二、示例程序分析该示例程序名为 `TestYahoo`，其主要功能是从指定的 URL (`http://sports.sina.com.cn/iframe/nba/live/`) 下载网页...

HTMLparser 测试代码: 在Web开发中，HTMLparser通常被用在自动化任务、网页抓取或数据挖掘项目中。本篇将深入探讨HTMLparser的测试代码及其相关知识点。首先，`ParserTest.java`可能是一个Java类，用于实现对HTMLparser的测试。在Java中...

基于统计的网页正文信息抽取: 在IT领域，网页正文信息抽取是一项重要的技术，它主要用于从大量的网页数据中提取出有用的信息，如新闻报道、产品描述等。"基于统计的网页正文信息抽取"是一种利用统计学方法来识别和提取网页主要内容的技术。本文将...

将HTML转成text，横向表格用TAB分开: 在IT领域，转换HTML到纯文本是一项常见的任务，特别是在数据处理和信息提取中。这个压缩包文件提供的C++源代码正是为了实现这一目的，特别是针对包含横向表格的HTML文档。让我们详细了解一下这些文件以及其中涉及的...

jsoup攫取你所需的信息: 综上所述，jsoup作为一个强大的HTML解析库，不仅简化了从网页中提取信息的过程，还提供了清理、操作和安全处理HTML的功能。无论你是要进行Web抓取、数据分析还是构建DOM操作的项目，jsoup都是一个不可多得的工具。在...

Java爬虫框架.pdf: Java爬虫框架是使用Java语言编写的爬虫程序，它能够按照既定的规则，自动地从互联网上抓取信息。爬虫框架的设计旨在简化爬虫程序的开发，使其更加易于管理和扩展。Java爬虫框架通常包含多个组件，以便于对网络请求、...

python实现将html表格转换成CSV文件的方法: 1. **HTMLParser 模块的使用** - HTMLParser 是 Python 内置的一个模块，用于解析 HTML 文档。 - 在这个例子中，我们使用 `HTMLParser` 类来创建一个自定义的解析器类 `html2csv`，该类能够将 HTML 表格转换为 CSV...

爬虫代码matlab-resume_projects:展示项目: XML或者HTMLParser工具箱可以解析网页结构，提取所需信息。 2. **数据抓取策略**：爬虫可能采用了递归爬取、深度优先或广度优先策略，通过URL解析和链接提取来遍历整个网站或特定部分。 3. **网页解析**：MATLAB中...

python standerd labrary中文版: - 函数如`copyreg.pickle()`, `copyreg.dispatch_table`等。 - **pprint模块** - 提供了一个美观打印Python数据结构的方法。 - 函数如`pprint.pprint()`, `pprint.pformat()`等。 - **repr模块**（已废弃） - ...

Global site tag (gtag.js) - Google Analytics