`
liuzejian4
  • 浏览: 58561 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

Parse a document from a String(将一个字符串解析成文档对象)

 
阅读更多
Problem
You have HTML in a Java String(你有一个java字符串格式的html), and you want to parse that HTML to get at its contents(和 你需要解析这个html获得他的内容), or to make sure it's well formed(或者确保他是格式良好的), or to modify it(或者需要修改他). The String may have come from user input(这个字符串可以来自用户输入), a file(一个文件), or from the web(或者一个网站).

Solution(解决方案)
Use the static Jsoup.parse(String html) method(使用静态的Jsoup.parse(String html)), or Jsoup.parse(String html, String baseUri) if the page came from the web(如果字符串来自页面), and you want to get at absolute URLs (和你需要获得里面的绝对路径)(see [working-with-urls]).

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

Description(描述)
The parse(String html, String baseUri) method parses the input HTML into a new Document()(这个parse(String html,String baseUti) 方法解析输入的html到一个新的Document()对象中). The base URI argument is used to resolve relative URLs into absolute URLs(这个baseURI参数是来解析相对路径到绝对路径的), and should be set to the URL where the document was fetched from(并且应该设置这份文件是取数据取自那里的url). If that's not applicable(如果这是不适用的), or if you know the HTML has a base element(或者你不知道这个html源是那里), you can use the parse(String html) method(你可以使用parse(String html) 方法).

As long as you pass in a non-null string(只要你传入一个非空字符串), you're guaranteed to have a successful(你得保证有一个成功的), sensible parse(明智的解析), with a Document containing (at least) a head and a body element(文档包(至少)含头head和body元素). (BETA: if you do get an exception raised, or a bad parse-tree, please file a bug.)

Once you have a Document(一旦你有了一个文档), you can get get at the data using the appropriate methods in Document and its supers Element and Node(你可以得到所需的数据使用适当的方法在文档及其管理员元素和节点).
分享到:
评论

相关推荐

    java解析xml字符串

    Java提供了多种库来解析和操作XML文档,其中JDOM(Java Document Object Model)是一个广泛使用的开源库,它提供了简单且强大的API来读取、创建和修改XML文档。 ### Java解析XML字符串 在给定的代码示例中,我们...

    C++解析xml文档或者xml字符串方法

    在这个例子中,`parseXMLString`函数接收一个XML字符串,将其转化为`BSTR`,然后调用`RealPlay`函数。在`RealPlay`中,使用`loadXML`方法解析XML字符串,而不是`load`方法,因为`loadXML`用于解析内存中的XML字符串...

    JAVA JAXB 解析XML嵌套子节点为字符串

    在Java开发中,JAXB(Java Architecture for XML Binding)是一个标准的API,用于将XML文档与Java对象之间进行互相转换。这个技术对于处理XML数据,尤其是解析和生成XML文档非常有用。当我们面临XML文档中存在嵌套子...

    xml解析和生成字符串、文档的实例

    本文将深入探讨如何使用Java进行XML的解析和生成,包括处理XML字符串和XML文件。 首先,让我们从解析XML字符串开始。在Java中,我们可以使用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`来...

    map/list集合转化成xml字符串 xml字符串转化成map/list集合

    首先,你需要创建一个`JAXBContext`实例,然后使用`Marshaller`对象将`Map`对象写入XML字符串。 ```java import javax.xml.bind.JAXBContext; import javax.xml.bind.Marshaller; public String mapToXml(Map...

    JDK自带方法解析xml特定格式的字符串

    - 使用`parse()`方法,传入一个`InputSource`对象,可以是包含XML的`StringReader`或`InputStream`,将XML字符串转换为`Document`对象。 ```java DocumentBuilderFactory factory = DocumentBuilderFactory.new...

    javascript转换字符串为dom对象(字符串动态创建dom).docx

    这样,我们就可以动态地将字符串转换为 DOM 对象,并将其追加到文档中。 在 JavaScript 中,创建对象的方法有很多种,例如工厂模式、构造函数模式、原型模式等等。使用这些方法,我们可以轻松地创建对象。但是,在...

    JSP中截取在线编辑器的字符串的处理.

    在这个例子中,我们首先使用Jsoup的parse()方法解析HTML字符串,得到一个DOM文档。然后,我们获取body元素,检查其文本内容是否超过指定长度。如果超过,我们就截取前`maxLength`个字符,并创建一个新的`p`元素来...

    java 读取文本并解析字符串

    1. **基于分隔符的解析**:我们可以使用`String.split()`方法,根据指定的分隔符将字符串分割成多个部分。例如,如果字符串由逗号分隔,可以这样操作: ```java String str = "apple,banana,grape"; String[] ...

    js的XML解析器 可以解析XMl文件和XML字符串

    通过DOMParser,可以将XML字符串转换为DOM对象,然后遍历和操作这个对象。 4. **问题与限制** - **特殊字符**:XML文档中可能存在特殊字符,如`、`&gt;`、`&`等,这些在XML中具有特殊含义,需要正确转义。如果未正确...

    Jsoup解析html中文文档

    当需要解析来自用户输入、文件或网站的HTML字符串时,可以使用`Jsoup.parse(String html)`方法: ```java String html = "&lt;p&gt;Hello, &lt;b&gt;world!&lt;/p&gt;"; Document doc = Jsoup.parse(html); System.out.println(doc); ...

    JS解析xml文件为字符串

    获取XML字符串后,可以使用`DOMParser`对象将其解析为DOM(Document Object Model)树。DOM是一种编程接口,它允许程序和脚本动态更新、添加和删除XML文档的元素。 ```javascript var parser = new DOMParser();...

    关于josup帮助文档

    **解析**:通过`Jsoup.parse(String html)`方法,可以将一个HTML字符串转换成一个`Document`对象。该对象包含了一个DOM树,可以用来访问文档中的各个元素。如果HTML文档不完整或者有错误,jsoup的解析器会尽可能地...

    pull解析器解析XML工具类

    - `parseXML(String xmlString)`: 从XML字符串解析,返回对象。 - `toXML(Object object)`: 将对象转换为XML字符串。 - `saveToXML(Object object, String filePath)`: 将对象保存为XML文件。 - `loadFromXML...

    jsoup中文教程

    这个方法能够将提供的字符串解析为一个结构化的Document对象,即使HTML格式不完整也能尽可能创建一个干净的结果。例如,它可以自动处理未关闭的标签、隐式标签,并构建出标准的HTML结构。 解析过程中可能遇到的问题...

    Dom4j解析和生成XML文档

    生成XML文档时,DOM4J允许我们通过创建`Element`、`Attribute`等对象,构建一个内存中的XML结构,然后将其转换为XML字符串或写入文件。 1. 创建`Document`对象:`Document document = DocumentFactory.getInstance...

    解析带有html标签的json数据

    HTML json parser通常会先将JSON数据中的HTML字符串提取出来,然后使用HTML解析器来解析这些标签,将其转换为结构化的DOM(Document Object Model)树。 在实际应用中,我们可能会遇到以下几种情况: 1. **提取纯...

    java解析html工具htmlparser的jar包及api文档

    `Parser`类可能是解析HTML的主要入口点,它可能包含`parse()`方法,接受一个输入流或者字符串作为参数,返回一个表示HTML结构的对象。 在实际使用中,开发者通常会创建一个`Parser`实例,然后通过它来解析HTML内容...

Global site tag (gtag.js) - Google Analytics