nekohtml 用法 - 搜索-gcgmh - ITeye博客

`

gcgmh

浏览: 359174 次
性别:
来自: 北京

最近访客更多访客>>

kevin.shi

12697459

Yan_Sunny

leoeco2000

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

menghuannvxia：您好，我通过java上传文件到hadoop速度特别慢，怎么回事 ...
hadoop hdfs 一些用法
ydsakyclguozi： ydsakyclguozi 写道david.org 写道错了. ...
hadoop修改默认的心跳检测的时间
ydsakyclguozi： david.org 写道错了. heartbeat.reche ...
hadoop修改默认的心跳检测的时间
mypotatolove：我现在想做用HttpClient从微博中爬取微博动态，能不能跟 ...
httpclient 设置user-agent
青春的、脚步：再者请教：如果查询的字段没有在配置文件的字段中加 termVe ...
solr morelikethis功能

nekohtml 用法

博客分类：

Parser_html

阅读更多

//nekohtml结合xpath用法
DOMParser parser = new DOMParser();   
    try {   
           //设置网页的默认编码   
           parser.setProperty("http://cyberneko.org/html/properties/default-encoding","gb2312");   
           /*The Xerces HTML DOM implementation does not support namespaces   
           and cannot represent XHTML documents with namespace information.   
           Therefore, in order to use the default HTML DOM implementation with NekoHTML's   
           DOMParser to parse XHTML documents, you must turn off namespace processing.*/  
           parser.setFeature("http://xml.org/sax/features/namespaces", false);   
  
           String strURL = "http://product.dangdang.com/product.aspx?product_id=9317290";   
           BufferedReader in = new BufferedReader(   
                   new InputStreamReader(   
                           new URL(strURL).openStream()));   
           parser.parse(new InputSource(in));   
           in.close();   
          } catch (Exception e) {   
           e.printStackTrace();   
          }   
          Document doc = parser.getDocument();   
          // tags should be in upper case   
          String productsXpath = "/HTML/BODY/DIV[2]/DIV[4]/DIV[2]/DIV/DIV[3]/UL[@class]/LI[9]";   
          NodeList products;   
          try {   
              products = XPathAPI.selectNodeList(doc, productsXpath);   
              System.out.println("found: " + products.getLength());   
              Node node = null;   
              for(int i=0; i< products.getLength();i++)   
              {   
                  node = products.item(i);   
                  System.out.println( i + ":\n" + node.getTextContent());   
              }   
          }catch (TransformerException e) {   
              e.printStackTrace();   
          }

分享到：

httpclient 设置user-agent | solr 排序

2009-09-21 15:02
浏览 2273
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

NekoHTML的相关用法以及j代码包: **使用方法** 1. **导入库**：首先，你需要在项目中引入NekoHTML库。如果你使用Maven，可以在pom.xml文件中添加以下依赖： ```xml <groupId>net.sourceforge.nekohtml</groupId> <artifactId>nekohtml ...

NekoHTML: 3. **NekoHTML特性和用法**：了解NekoHTML如何处理不标准的HTML，以及如何配置和使用解析器。 4. **Java编程**：因为NekoHTML是用Java实现的，所以你需要具备基本的Java编程能力，以便编写和运行相关代码。在阅读`...

NekoHtml解析 html 文件: 通过分析这些文件，我们可以更直观地了解NekoHtml的使用方法和效果。例如，可能会有简单的Java代码片段展示如何创建NekoParser实例，加载HTML文件，然后遍历和操作生成的DOM树。测试用例则可能包含了各种格式的HTML...

NekoHTML学习笔记.doc: 三、NekoHTML 的使用方法使用 NekoHTML 需要下载 nekohtml-latest.zip，并将其添加到 CLASSPATH 中。然后，使用 JAXP 实例化解析器对象时，可以透明地创建 HTML 解析器。也可以使用 org.cyberneko.html.parsers 包...

nekohtml-1.9.13.zip: `NekoDoc`则是一个用于生成HTML文档的API文档的工具，它有助于理解库的使用方法。在使用NekoHTML时，首先需要将其添加到项目依赖中。对于Java项目，这通常意味着将JAR文件包含在类路径中。1.9.13版本的NekoHTML...

nekohtml使用笔记 txt: ### NekoHTML 使用笔记 #### 一、简介与配置 NekoHTML 是一款轻量级且高效的 HTML 解析器库，它可以将不规范的 HTML 文档解析为接近标准的 XML 结构，便于后续处理和分析。该库尤其适用于对性能有较高要求的应用...

nekohtml-1.9.14源码及jar包: 例如，可以使用`org.cyberneko.html.parsers.DocumentBuilder`类来创建一个解析器，并通过`parse()`方法读取和解析HTML文本。 **2. nekohtml的源码**：除了jar包，压缩包还提供了源码文件，这使得开发者有机会深入...

nekohtml 帮助类: `nekohtml` 是一个开源的Java库，用于解析HTML和XML文档，它提供了一个Xerces Lite解析器，能够处理不严格...通过阅读这些资源，开发者可以获得更具体的使用示例和高级用法，以便在实际项目中更好地应用`nekohtml`库。

NeKoHTML 1.9.21: 使用NeKoHTML时，开发者首先需要创建一个`DOMParser`实例，然后配置解析器以处理HTML或XHTML，接着设置输入源，最后调用`parse`方法解析HTML文本。解析完成后，`parse`方法会返回一个`Document`对象，供开发者进行...

Java解析HTML之NekoHTML: 本篇文章将深入探讨NekoHTML的工作原理以及如何在Java中使用它。 NekoHTML是由Apache Software Foundation的Xerces项目开发的一个小型库，它提供了两个主要类：`org.htmlparser.Parser`和`org.htmlparser....

nekoHtml 1.9.19 加 source 源码 html分析jar: 例如，可以创建一个`org.htmlparser.Parser`实例，然后使用`parse()`方法解析HTML内容。解析完成后，可以通过DOM接口如`NodeList`, `Node`, `Element`等来遍历和操作DOM树。标签"nekoHtml"表明这个库专注于HTML...

nekohtml-1.9.22.zip: 1. **nekohtml-1.9.22.jar**：这是NekoHTML的核心库文件，包含了所有的类和方法，供开发者在Java环境中使用。它提供了对不规则或非标准HTML的解析能力，允许开发者处理和理解那些可能不符合严格XML规范的网页内容。...

上传nekohtml-1.9.9.zip: 在使用"nekohtml-1.9.9.zip"时，你需要将其解压到你的项目中，并通过Java的`import`语句引入相关的类，如`net.sourceforge.nekohtml.NekoHTMLParser`。之后，你可以创建解析器对象并调用其方法来处理HTML字符串或...

用NekoHTML计算页面相似度: 这是用java 和nekoHTML分析出页面的相似度,用法如下: String url1 = "http://www.baidu.com"; String url2 = "http://www.baidu.com"; System.out.println(PageDistance.getPageDistance(url1, url2)); 我己把源...

nekohtml-demo-1.9.14-13.el7.x64-86.rpm.tar.gz: 在软件包管理系统中，RPM（RPM包管理器）是Red Hat Linux及其衍生系统（例如CentOS、Fedora和EPEL）使用的一种标准包格式，它用于安装、卸载和...对于需要使用nekohtml进行开发的用户来说，这是一个十分便捷的安装包。

Java parse HTML to XHTML: 本示例将探讨如何使用NekoHTML这个Java库将普通的HTML文件解析为符合XHTML标准的文档。 NekoHTML是由Apache的Cobra项目提供的一种开源Java库，它允许开发者分析、清理和转换HTML文档。这个库的主要目标是处理不完全...

Java中使用正则表达式: 最近要在项目中做HTML解析,本想使用NekoHTML来解析,但看了下NekoHTML有点复杂,故采用了一种便捷,笨的方式来完成项目的要求....在解析期间,研究了很多java正则表达式使用方法,颇得一些经验,不敢独享,愿与大家共享.

html解析为xml: ... ...尽管两者都属于标记语言，但它们的设计目的...通过使用 Apache NekoHTML 和 Java 标准库，我们可以轻松地完成这一转换任务。对于需要进行 HTML 数据处理的应用程序来说，这种方法提供了一个高效且可靠的解决方案。

htmlunit-2.9-bin.zip ): 例如，你可以创建一个WebClient对象，设置cookies，然后使用`getPage()`方法加载网页，使用`click()`方法模拟点击链接，或者使用`executeJavaScript()`方法执行JavaScript代码。总的来说，HTMLUnit是一个强大的...

Global site tag (gtag.js) - Google Analytics