`
liuzejian4
  • 浏览: 58551 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

解析和遍历文档

 
阅读更多
To parse a HTML document(解析一个html文档):

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(See parsing a document from a string for more info.)

The parser will make every attempt to create a clean parse from the HTML you provide, regardless of whether the HTML is well-formed or not. It handles(无论html格式是否完整或正确,解析器都会试图建立一个干净的对象或完整的对象):

  • unclosed tags (如未关闭的标签 )(e.g. <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
  • implicit tags (如隐含的标签)(e.g. a naked <td>Table data</td> is wrapped into a <table><tr><td>?)
  • reliably creating the document structure (可靠地创建文档结构)(html containing a head and body, and only appropriate elements within the head (html包含head 和 body,那些只适合在头部的标签))

The object model of a document(一个文档对象模型)
Documents consist of Elements and TextNodes (文档模型中包含很多元素和文字节点)(and a couple of other misc nodes(一些其他的节点): see the nodes package tree(请看节点包)).
The inheritance chain is(继承连): Document extends Element extends Node(文档继承元素继承节点). TextNode extends Node(文字节点继承节点).
An Element contains a list of children Nodes(一个节点包含许多子节点), and has one parent Element(和有一个父节点). They also have provide a filtered list of child Elements only.
See also
Extracting data: DOM navigation
Extracting data: Selector syntax
分享到:
评论

相关推荐

    alicfeng#note#Java解析和遍历html文档利器1

    前言:几乎任何的语言都可以解析和遍历html超文本,我常用的语言就是php啦,但是我想在android客户端获取网络http的的数据,虽然可以使用php但是需要

    一个快速的命令行工具来解析和遍历AppleGlot本地化词汇表.zip

    标题中的“一个快速的命令行工具来解析和遍历AppleGlot本地化词汇表”指的是一个专门用于处理AppleGlot格式的本地化文件的CLI(命令行界面)工具。AppleGlot是苹果公司用于管理多语言本地化的一种工具,它可以帮助...

    office word文档解析

    - **段落内容解析**:通过POI,我们可以遍历文档中的每一个段落,提取文本内容,包括格式化信息(如字体、字号、颜色等)。 - **表格数据解析**:POI允许访问和解析Word文档中的表格,可以获取单元格的值,行列...

    java遍历文件夹解析XML.doc

    在Java编程中,遍历文件夹和解析XML是两种常见的操作,它们在处理数据和构建应用程序时发挥着关键作用。这篇文档"java遍历文件夹解析XML.doc"可能详细介绍了如何使用Java进行这两个任务。 首先,让我们深入了解一下...

    Java解析wsdl文档获取具体的方法与参数

    DOM(Document Object Model)是Java处理XML文档的一种常见方式,它将XML文档转换为一棵树形结构,便于遍历和操作。 要解析WSDL文档,我们需要依赖Java的JAX-WS(Java API for XML Web Services)框架。JAX-WS提供...

    XML文档遍历详细代码

    本篇文章将深入探讨如何使用JavaScript DOM(Document Object Model)来遍历XML文档,通过具体的详细代码实现,帮助开发者更好地理解和掌握这一技术。 在JavaScript中,XML文档可以通过DOM接口进行解析和操作。DOM...

    利用CMakup类实现对XML解析,实现遍历,添加,修改,删除

    在本主题中,我们将深入探讨如何利用CMakup类来处理XML文件,实现对XML文档的遍历、添加、修改和删除操作。在VC(Visual C++)环境下,CMakup类是MFC(Microsoft Foundation Classes)库提供的一个工具,用于XML文档...

    Word文档上传并解析内容

    2. 遍历文档中的每个段落,提取文本内容。 3. 如果需要处理特殊格式(如表格、图片、页眉页脚等),可以调用对应的API获取相关信息。 4. 将解析出的内容存储到合适的数据结构中,例如字符串列表或自定义对象列表。 5...

    vc cmarkup 遍历 xml 树

    在C++编程环境中,当你需要处理XML文档时,通常会使用特定的库来解析和操作XML数据。在本实例中,我们关注的是“vc cmarkup 遍历 xml 树”,这表明我们将讨论如何在Visual C++(VC6)中使用CMARKUP类来解析并遍历XML...

    实现先序,中序和后序遍历的二叉树遍历程序

    这些遍历方法在各种应用场景中都非常有用,例如在文件系统中查找路径,解析XML或HTML文档,以及在数据库查询优化中构建执行计划等。通过理解和掌握二叉树遍历,可以进一步深入到数据结构和算法的核心,这对于任何IT...

    利用TikaAPI解析各种文档

    在IT行业中,处理和解析不同类型的文档是一项常见的任务。为了高效地实现这一目标,开发者们经常依赖于各种库和工具。其中一个强大的工具就是Tika API,它是一个由Apache软件基金会开发的开源内容检测和元数据提取...

    使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解

    ### 使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解 在现代网络数据抓取及处理领域,Python凭借其强大的第三方库支持而成为首选工具之一。其中,BeautifulSoup库因其简洁易用且功能强大而在HTML和...

    JAVA用poi解析doc、docx、slx、xlsx,保证完整

    这通常涉及遍历文档元素,将段落、列表、表格等转换为相应的HTML标签。例如,段落可以转换为`&lt;p&gt;`,表格可以转换为`&lt;table&gt;`,字体样式和颜色需要通过CSS来实现。 在提供的POI3.8版本中,可能包含了基本的解析和...

    DOM和SAX解析XML文档

    DOM解析器将整个XML文档加载到内存中,创建一个树形结构的文档对象模型,允许开发者通过节点层级遍历和操作XML数据。DOM解析的特点包括: 1. 完整性:DOM解析器一次性加载整个XML文档,因此可以随时访问任何部分的...

    遍历XML文件内所有节点和属性

    在IT行业中,XML(eXtensible Markup Language)是一种用于存储和传输数据的标准化格式,广泛应用在数据交换、配置文件和文档结构化等领域。当处理大型XML文件时,传统递归方法可能会导致性能下降,特别是在处理深层...

    qt xml操作 遍历

    Qt是一个跨平台的C++库,提供了丰富的API来处理XML,使得开发者能够方便地在Qt应用程序中进行XML的读取、解析、修改和生成。本篇文章将深入探讨如何在Qt中实现XML的遍历及属性操作。 首先,Qt中的QXmlStreamReader...

Global site tag (gtag.js) - Google Analytics