`
lxwt909
  • 浏览: 573533 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

W3C Document 与Jsoup Document之间对象互转

阅读更多

    1. org.w3c.dom.Document对象转成org.jsoup.nodes.Document对象:

      

String fragment = "<data><employee><name id=\"1\">益达</name><name id=\"2\">yida</name>"
				+ "<title>Manager</title></employee></data>";

XMLUtils util = new XMLUtils();
//先得到W3C Document对象
Document doc = util.fragment2Document(fragment);
		
//将W3C Document对象转成XML字符串
DOMSource domSource = new DOMSource(doc);
StringWriter writer = new StringWriter();
StreamResult result = new StreamResult(writer);
TransformerFactory tf = TransformerFactory.newInstance();
Transformer transformer = tf.newTransformer();
transformer.transform(domSource, result);
System.out.println(writer.toString());

    然后XML String to jsoup Document对象,so easy!

//这里xmlString表示xml字符串代码片段
org.jsoup.nodes.Document document = org.jsoup.Jsoup.parse(xmlString);

 

 

    2.org.jsoup.nodes.Document对象转成org.w3c.dom.Document对象:

org.jsoup.helper.W3CDom w3cDom = new W3CDom();
//这里的doc对象指的是jsoup里的Document对象
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(doc);

 

   注意:org.jsoup.helper.W3CDom类在jsoup-1.7.x.jar里是不存在的,请使用jsoup-1.8.3.jar,特此提醒!谢谢!

1
1
分享到:
评论

相关推荐

    jsoup-jar包

    这个对象遵循W3C DOM规范,允许我们像操作XML一样操作HTML。你可以通过CSS选择器选择元素,就像在jQuery中那样: ```java Elements links = doc.select("a[href]"); for (Element link : links) { System.out....

    jsoup-1.7.1 chm

    此外,它还可以验证HTML是否符合W3C标准,确保解析的准确性。 ### 安全性 在处理网络内容时,安全性至关重要。jsoup能够防御跨站脚本(XSS)攻击,通过其内置的XSS防御机制,可以在提取和展示用户提供的HTML内容时...

    jsoup的jar包

    它可以自动修正不规范的HTML代码,使其符合W3C标准,从而避免了因HTML格式不正确导致的解析问题。同时,jsoup也提供了安全的链接提取和XSS防御机制,保护应用程序免受跨站脚本攻击。 在实际应用中,jsoup常用于数据...

    jsoup-1.11.2-javadoc.rar

    网络上的HTML往往不规范,JSoup可以对不标准的HTML进行清理,使其符合W3C标准。这在处理用户输入或者从不受控制的源获取HTML时特别有用,可以确保解析的稳定性。 **类型搜索索引** 在提供的压缩包文件中,"type-...

    jsoup-1.13.1.jar Java爬虫经典框架 抓取网页内容

    - **CSS选择器**:jsoup实现了W3C标准的CSS选择器,如`getElementById`, `getElementsByTag`, `select("css selector")`等,让开发者能方便地定位到需要的元素。 2. **数据提取** - **文本内容**:jsoup提供了...

    jsoup获取网页正文

    `Jsoup.clean()`方法可用于清理HTML,移除脚本、样式等无关内容,同时规范化HTML标签,使其符合W3C标准。 5. **高级选择器和过滤** 使用CSS选择器可以精准定位元素,例如:`doc.select(".class-name")`选择所有...

    html解析工具 jsoup-1.8.1.jar

    JSoup还能够自动修复不规范的HTML,使其符合W3C标准。这意味着即使面对不完整的或格式错误的HTML,JSoup也能正常解析,并尽可能地提供正确的结构。 **5. DOM操作** JSoup的API设计得与jQuery非常相似,使得开发者...

    HttpRequest+Document读取xml+HtmlParse+AsyncTask

    在Android中,通过Java的org.w3c.dom.Document接口,我们可以解析XML数据,获取元素、属性等信息。 3. **HtmlParse**: HTML解析通常涉及将HTML文本转换为可操作的数据结构,以便进一步处理。在Android中,Jsoup是一...

    java解析xml,dom解析,jsoup解析,完整项目

    在Java中,我们可以使用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`等类来实现DOM解析。以下是一个简单的示例: ```java import javax.xml.parsers.DocumentBuilderFactory; import javax...

    01-Android中xml转json.zip

    在Android中,我们可以使用内置的`org.w3c.dom`库或者第三方库如`jsoup`来解析XML。例如,使用`DocumentBuilderFactory`和`DocumentBuilder`可以创建一个`Document`对象,该对象代表整个XML文档的根节点。遍历`...

    java对html文件的处理

    import org.w3c.dom.Document; ... Document doc = DocumentBuilderFactory.newInstance().newDocumentBuilder().parse(xmlInputStream); ``` 4. **数据提取与操作**:在解析XML后,可以使用XPath或DOM API来...

    java 读取html过滤标签

    import org.w3c.dom.Document; import org.w3c.dom.NodeList; import org.w3c.dom.Node; // 解析HTML Document doc = DocumentBuilderFactory.newInstance().parse(new File("path_to_html_file.html")); //...

    java读写xml文件

    DOM(Document Object Model)是W3C推荐的标准,它提供了一种与平台和语言无关的方式访问和更新文档内容、结构和样式的方法。在Java中,我们通常使用`javax.xml.parsers`包下的类来创建DOM树,并通过`org.w3c.dom`...

    java解析html

    它允许你用标准的 SAX 或者 DOM API 来处理 HTML,即使这个 HTML 不符合 W3C 标准。这对于处理用户生成的内容或者网络上的各种 HTML 片段特别有用。 4. **JTidy** - JTidy 是一个 Java 实现的 HTML/Tidy 解析器和...

    java—FAR HTML

    通过`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`接口,可以解析HTML文档并构建一个树形结构,从而方便地遍历和操作HTML元素。 3. **JSOUP库** JSOUP是一个强大的Java库,专为解析HTML而...

    Java开发API大全03

    接下来,"dom.api"指的是Document Object Model(文档对象模型)的API。DOM是W3C标准,它提供了一种结构化的表示HTML或XML文档的方式,并允许程序和脚本动态更新、添加、删除以及改变元素和属性。Java中可以使用...

    nekohtml-1.9.13.zip

    `DOMParser`是解析HTML文档的主要类,它基于W3C的Document Object Model (DOM) API来构建解析后的HTML结构。DOM是一种树形数据结构,允许开发者通过节点遍历、修改和操作HTML文档。`NekoDoc`则是一个用于生成HTML...

    nekoHtml 1.9.19 加 source 源码 html分析jar

    它还支持XML规范,可以处理不完全符合标准的HTML文档,这在处理实际网页时非常有用,因为许多网站的HTML代码可能并不严格遵循W3C标准。 nekoHtml的核心组件是NekoHTML解析器,它基于一个称为“词法分析器”...

    Java网络爬虫(蜘蛛)源码.zip

    - **DOM解析**: 使用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`进行DOM解析,将HTML转换为可操作的树结构。 - **SAX解析**: 适用于大型HTML文档,SAX解析器逐行读取HTML,事件驱动,...

    网页抓取例子

    - 解析HTML文档时,可以利用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`处理XML和HTML,或者使用Jsoup库,它提供了更友好的API来操作DOM树。 3. **常见网页抓取工具和库**: - Python有...

Global site tag (gtag.js) - Google Analytics