W3C Document 与Jsoup Document之间对象互转 - 嘿↗你的益达 - ITeye博客

`

lxwt909

浏览: 577418 次
性别:
来自: 北京

最近访客更多访客>>

akingde

chenghu209

14252316

yinxin2745154

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

w592376568：博主：添加后修改索引后，如何实现实时搜索啊？？
Lucene5学习之LuceneUtils工具类简单封装
mohaoyang：同意12楼的说法,close方法,单例的意义如何,每次clos ...
Lucene5学习之LuceneUtils工具类简单封装
kingxianstar： 8837One_day 写道你好作者，所有的配置文件都配置了， ...
跟益达学Solr5之增量索引MySQL数据库表数据
yingyong01： ...
跟益达学Solr5之拼音分词[改进版]
8837One_day：你好作者，所有的配置文件都配置了，在数据库中也添加新的一条数据 ...
跟益达学Solr5之增量索引MySQL数据库表数据

W3C Document 与Jsoup Document之间对象互转

博客分类：

java base

Document W3C Jsoup

阅读更多

1. org.w3c.dom.Document对象转成org.jsoup.nodes.Document对象:

String fragment = "<data><employee><name id=\"1\">益达</name><name id=\"2\">yida</name>"
				+ "<title>Manager</title></employee></data>";

XMLUtils util = new XMLUtils();
//先得到W3C Document对象
Document doc = util.fragment2Document(fragment);
		
//将W3C Document对象转成XML字符串
DOMSource domSource = new DOMSource(doc);
StringWriter writer = new StringWriter();
StreamResult result = new StreamResult(writer);
TransformerFactory tf = TransformerFactory.newInstance();
Transformer transformer = tf.newTransformer();
transformer.transform(domSource, result);
System.out.println(writer.toString());

然后XML String to jsoup Document对象,so easy!

//这里xmlString表示xml字符串代码片段
org.jsoup.nodes.Document document = org.jsoup.Jsoup.parse(xmlString);

2.org.jsoup.nodes.Document对象转成org.w3c.dom.Document对象:

org.jsoup.helper.W3CDom w3cDom = new W3CDom();
//这里的doc对象指的是jsoup里的Document对象
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(doc);

注意:org.jsoup.helper.W3CDom类在jsoup-1.7.x.jar里是不存在的,请使用jsoup-1.8.3.jar,特此提醒!谢谢!

1
顶

1
踩

分享到：

音悦台800多万MV视频抓取 | 有关W3C Document操作的XML工具类

2015-10-08 14:37
浏览 4039
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

jsoup-jar包: 这个对象遵循W3C DOM规范，允许我们像操作XML一样操作HTML。你可以通过CSS选择器选择元素，就像在jQuery中那样： ```java Elements links = doc.select("a[href]"); for (Element link : links) { System.out....

jsoup-1.7.1 chm: 此外，它还可以验证HTML是否符合W3C标准，确保解析的准确性。 ### 安全性在处理网络内容时，安全性至关重要。jsoup能够防御跨站脚本（XSS）攻击，通过其内置的XSS防御机制，可以在提取和展示用户提供的HTML内容时...

jsoup的jar包: 它可以自动修正不规范的HTML代码，使其符合W3C标准，从而避免了因HTML格式不正确导致的解析问题。同时，jsoup也提供了安全的链接提取和XSS防御机制，保护应用程序免受跨站脚本攻击。在实际应用中，jsoup常用于数据...

jsoup-1.11.2-javadoc.rar: 网络上的HTML往往不规范，JSoup可以对不标准的HTML进行清理，使其符合W3C标准。这在处理用户输入或者从不受控制的源获取HTML时特别有用，可以确保解析的稳定性。 **类型搜索索引** 在提供的压缩包文件中，"type-...

jsoup-1.13.1.jar Java爬虫经典框架抓取网页内容: - **CSS选择器**：jsoup实现了W3C标准的CSS选择器，如`getElementById`, `getElementsByTag`, `select("css selector")`等，让开发者能方便地定位到需要的元素。 2. **数据提取** - **文本内容**：jsoup提供了...

jsoup获取网页正文: `Jsoup.clean()`方法可用于清理HTML，移除脚本、样式等无关内容，同时规范化HTML标签，使其符合W3C标准。 5. **高级选择器和过滤** 使用CSS选择器可以精准定位元素，例如：`doc.select(".class-name")`选择所有...

html解析工具 jsoup-1.8.1.jar: JSoup还能够自动修复不规范的HTML，使其符合W3C标准。这意味着即使面对不完整的或格式错误的HTML，JSoup也能正常解析，并尽可能地提供正确的结构。 **5. DOM操作** JSoup的API设计得与jQuery非常相似，使得开发者...

HttpRequest+Document读取xml+HtmlParse+AsyncTask: 在Android中，通过Java的org.w3c.dom.Document接口，我们可以解析XML数据，获取元素、属性等信息。 3. **HtmlParse**: HTML解析通常涉及将HTML文本转换为可操作的数据结构，以便进一步处理。在Android中，Jsoup是一...

java解析xml，dom解析，jsoup解析，完整项目: 在Java中，我们可以使用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`等类来实现DOM解析。以下是一个简单的示例： ```java import javax.xml.parsers.DocumentBuilderFactory; import javax...

01-Android中xml转json.zip: 在Android中，我们可以使用内置的`org.w3c.dom`库或者第三方库如`jsoup`来解析XML。例如，使用`DocumentBuilderFactory`和`DocumentBuilder`可以创建一个`Document`对象，该对象代表整个XML文档的根节点。遍历`...

java对html文件的处理: import org.w3c.dom.Document; ... Document doc = DocumentBuilderFactory.newInstance().newDocumentBuilder().parse(xmlInputStream); ``` 4. **数据提取与操作**：在解析XML后，可以使用XPath或DOM API来...

java 读取html过滤标签: import org.w3c.dom.Document; import org.w3c.dom.NodeList; import org.w3c.dom.Node; // 解析HTML Document doc = DocumentBuilderFactory.newInstance().parse(new File("path_to_html_file.html")); //...

java读写xml文件: DOM（Document Object Model）是W3C推荐的标准，它提供了一种与平台和语言无关的方式访问和更新文档内容、结构和样式的方法。在Java中，我们通常使用`javax.xml.parsers`包下的类来创建DOM树，并通过`org.w3c.dom`...

java解析html: 它允许你用标准的 SAX 或者 DOM API 来处理 HTML，即使这个 HTML 不符合 W3C 标准。这对于处理用户生成的内容或者网络上的各种 HTML 片段特别有用。 4. **JTidy** - JTidy 是一个 Java 实现的 HTML/Tidy 解析器和...

java—FAR HTML: 通过`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`接口，可以解析HTML文档并构建一个树形结构，从而方便地遍历和操作HTML元素。 3. **JSOUP库** JSOUP是一个强大的Java库，专为解析HTML而...

Java开发API大全03: 接下来，"dom.api"指的是Document Object Model（文档对象模型）的API。DOM是W3C标准，它提供了一种结构化的表示HTML或XML文档的方式，并允许程序和脚本动态更新、添加、删除以及改变元素和属性。Java中可以使用...

nekohtml-1.9.13.zip: `DOMParser`是解析HTML文档的主要类，它基于W3C的Document Object Model (DOM) API来构建解析后的HTML结构。DOM是一种树形数据结构，允许开发者通过节点遍历、修改和操作HTML文档。`NekoDoc`则是一个用于生成HTML...

nekoHtml 1.9.19 加 source 源码 html分析jar: 它还支持XML规范，可以处理不完全符合标准的HTML文档，这在处理实际网页时非常有用，因为许多网站的HTML代码可能并不严格遵循W3C标准。 nekoHtml的核心组件是NekoHTML解析器，它基于一个称为“词法分析器”...

Java网络爬虫(蜘蛛)源码.zip: - **DOM解析**: 使用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`进行DOM解析，将HTML转换为可操作的树结构。 - **SAX解析**: 适用于大型HTML文档，SAX解析器逐行读取HTML，事件驱动，...

网页抓取例子: - 解析HTML文档时，可以利用`javax.xml.parsers.DocumentBuilderFactory`和`org.w3c.dom.Document`处理XML和HTML，或者使用Jsoup库，它提供了更友好的API来操作DOM树。 3. **常见网页抓取工具和库**： - Python有...

Global site tag (gtag.js) - Google Analytics