解析和遍历文档 - - ITeye博客

`

liuzejian4

浏览: 59099 次
性别:
来自: 西安

最近访客更多访客>>

supermanxm_002

ringphone

zjie20723

liupingtoday

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

donghang：怎么才算破解成功，我的破解后还有提示，感觉好象没有起作用，能贴 ...
MyEclipse9版本的破解方法

解析和遍历文档

博客分类：

jsoup官方教程

阅读更多

To parse a HTML document(解析一个html文档):

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(See parsing a document from a string for more info.)

The parser will make every attempt to create a clean parse from the HTML you provide, regardless of whether the HTML is well-formed or not. It handles(无论html格式是否完整或正确，解析器都会试图建立一个干净的对象或完整的对象):

unclosed tags (如未关闭的标签 )(e.g. <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
implicit tags (如隐含的标签)(e.g. a naked <td>Table data</td> is wrapped into a <table><tr><td>?)
reliably creating the document structure (可靠地创建文档结构)(html containing a head and body, and only appropriate elements within the head (html包含head 和 body,那些只适合在头部的标签))

The object model of a document(一个文档对象模型)
Documents consist of Elements and TextNodes (文档模型中包含很多元素和文字节点)(and a couple of other misc nodes（一些其他的节点）: see the nodes package tree(请看节点包)).
The inheritance chain is(继承连): Document extends Element extends Node(文档继承元素继承节点). TextNode extends Node(文字节点继承节点).
An Element contains a list of children Nodes(一个节点包含许多子节点), and has one parent Element(和有一个父节点). They also have provide a filtered list of child Elements only.
See also
Extracting data: DOM navigation
Extracting data: Selector syntax

分享到：

Parse a document from a String(将一个字 ... | 修改了下，不过不是很的方式

2012-08-12 21:19
浏览 991
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

alicfeng#note#Java解析和遍历html文档利器1: 前言：几乎任何的语言都可以解析和遍历html超文本，我常用的语言就是php啦，但是我想在android客户端获取网络http的的数据，虽然可以使用php但是需要

Dom4j遍历解析XML: Dom4j 遍历解析 XML 是指使用 Dom4j 库来解析和遍历 XML 文档，提取其中的元素、属性和值。在 Dom4j 中，遍历 XML 文档需要使用 SAXReader 对象来读取 XML 文件，并将其转换为 Document 对象。Document 对象是 Dom...

一个快速的命令行工具来解析和遍历AppleGlot本地化词汇表.zip: 标题中的“一个快速的命令行工具来解析和遍历AppleGlot本地化词汇表”指的是一个专门用于处理AppleGlot格式的本地化文件的CLI（命令行界面）工具。AppleGlot是苹果公司用于管理多语言本地化的一种工具，它可以帮助...

office word文档解析: - **段落内容解析**：通过POI，我们可以遍历文档中的每一个段落，提取文本内容，包括格式化信息（如字体、字号、颜色等）。 - **表格数据解析**：POI允许访问和解析Word文档中的表格，可以获取单元格的值，行列...

java遍历文件夹解析XML.doc: 在Java编程中，遍历文件夹和解析XML是两种常见的操作，它们在处理数据和构建应用程序时发挥着关键作用。这篇文档"java遍历文件夹解析XML.doc"可能详细介绍了如何使用Java进行这两个任务。首先，让我们深入了解一下...

Java解析wsdl文档获取具体的方法与参数: DOM（Document Object Model）是Java处理XML文档的一种常见方式，它将XML文档转换为一棵树形结构，便于遍历和操作。要解析WSDL文档，我们需要依赖Java的JAX-WS（Java API for XML Web Services）框架。JAX-WS提供...

XML文档遍历详细代码: 本篇文章将深入探讨如何使用JavaScript DOM（Document Object Model）来遍历XML文档，通过具体的详细代码实现，帮助开发者更好地理解和掌握这一技术。在JavaScript中，XML文档可以通过DOM接口进行解析和操作。DOM...

利用CMakup类实现对XML解析，实现遍历，添加，修改，删除: 在本主题中，我们将深入探讨如何利用CMakup类来处理XML文件，实现对XML文档的遍历、添加、修改和删除操作。在VC（Visual C++）环境下，CMakup类是MFC（Microsoft Foundation Classes）库提供的一个工具，用于XML文档...

Word文档上传并解析内容: 2. 遍历文档中的每个段落，提取文本内容。 3. 如果需要处理特殊格式（如表格、图片、页眉页脚等），可以调用对应的API获取相关信息。 4. 将解析出的内容存储到合适的数据结构中，例如字符串列表或自定义对象列表。 5...

vc cmarkup 遍历 xml 树: 在C++编程环境中，当你需要处理XML文档时，通常会使用特定的库来解析和操作XML数据。在本实例中，我们关注的是“vc cmarkup 遍历 xml 树”，这表明我们将讨论如何在Visual C++（VC6）中使用CMARKUP类来解析并遍历XML...

实现先序，中序和后序遍历的二叉树遍历程序: 这些遍历方法在各种应用场景中都非常有用，例如在文件系统中查找路径，解析XML或HTML文档，以及在数据库查询优化中构建执行计划等。通过理解和掌握二叉树遍历，可以进一步深入到数据结构和算法的核心，这对于任何IT...

利用TikaAPI解析各种文档: 在IT行业中，处理和解析不同类型的文档是一项常见的任务。为了高效地实现这一目标，开发者们经常依赖于各种库和工具。其中一个强大的工具就是Tika API，它是一个由Apache软件基金会开发的开源内容检测和元数据提取...

使用DOM解析XML和使用SAX解析XML: DOM和SAX是两种常用的XML解析技术，它们在处理XML文档时各有特点和适用场景。 DOM（文档对象模型）解析XML文档是通过构建一个树形结构，将整个XML文档加载到内存中，形成一个节点层次。W3C官方推荐了DOM，使其成为...

使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解: ### 使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解在现代网络数据抓取及处理领域，Python凭借其强大的第三方库支持而成为首选工具之一。其中，BeautifulSoup库因其简洁易用且功能强大而在HTML和...

JAVA用poi解析doc、docx、slx、xlsx,保证完整: 这通常涉及遍历文档元素，将段落、列表、表格等转换为相应的HTML标签。例如，段落可以转换为`<p>`，表格可以转换为`<table>`，字体样式和颜色需要通过CSS来实现。在提供的POI3.8版本中，可能包含了基本的解析和...

DOM和SAX解析XML文档: DOM解析器将整个XML文档加载到内存中，创建一个树形结构的文档对象模型，允许开发者通过节点层级遍历和操作XML数据。DOM解析的特点包括： 1. 完整性：DOM解析器一次性加载整个XML文档，因此可以随时访问任何部分的...

遍历XML文件内所有节点和属性: 在IT行业中，XML（eXtensible Markup Language）是一种用于存储和传输数据的标准化格式，广泛应用在数据交换、配置文件和文档结构化等领域。当处理大型XML文件时，传统递归方法可能会导致性能下降，特别是在处理深层...

qt xml操作遍历: Qt是一个跨平台的C++库，提供了丰富的API来处理XML，使得开发者能够方便地在Qt应用程序中进行XML的读取、解析、修改和生成。本篇文章将深入探讨如何在Qt中实现XML的遍历及属性操作。首先，Qt中的QXmlStreamReader...

Global site tag (gtag.js) - Google Analytics