package com.app.jsoup;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*@Author:liangjilong
*@Date:2013-8-8
*@Email:jilongliang@sina.com
*@Version:Version1.0
*@CopyRight:liangjilong
*@Description:
*/
public class Jsoup1 {
public static void main(String[] args) {
StringBuffer buffer=new StringBuffer("<table border=\"1\" align=\"center\">");
buffer.append("<tr><td colspan=\"2\" class='td'>电 话:</td><td id=\"tel\"></td></tr>");
buffer.append("<tr><td colspan=\"2\" class='td'>用 户:</td><td id=\"username\"></td></tr>");
buffer.append("<tr><td colspan=\"2\" class='td'><img src=\"images/1.png\"/></td></tr>");
buffer.append("</table>");
String html=buffer.toString();
Document doc=Jsoup.parse(html, "GBK");
Elements table=doc.select("table");//选择table标签
for(Element tab:table){
tab.attr("border", "2");//修改table的边框值
}
Element td_classfirst = doc.select("td.td").first();
td_classfirst.remove();//把第一个td的class=td的样式的标签都移除
Element td_classlast = doc.select("td.td").last();
td_classlast.remove();//把第最后的一个td的class=td的样式的标签都移除
Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 图片的元素
for(Element png:pngs){
String pngText=png.text();
String src=png.attr("src");//根据属性名获取src的路径
System.out.println(src+pngText);
}
//在id为tel的td标签里面添加一个value等于121212121的值 如:<td id="tel" value="121212121"></td>
doc.getElementById("tel").val("121212121");//
//在id为tel的td标签添加一个文本值 如:<td id="tel">121212121</td>
doc.getElementById("tel").html("121212121");//
String newHtml=doc.toString();
System.out.println(newHtml);
}
}
文章推荐
分享到:
相关推荐
**jsoup API解析HTML** jsoup是一个非常强大的Java库,专为处理真实世界的HTML而设计。它提供了方便的API,用于提取和操作数据,使用DOM,CSS和jQuery-like方法。在深入jsoup的API之前,我们需要理解HTML解析的重要...
相比于标准的DOM解析器,Jsoup更注重实际的网页解析需求,它的错误容忍度更高,能够处理一些不规范的HTML代码。 总结来说,Jsoup是Java开发者处理HTML时的强大工具,无论是在数据抓取、网页验证还是内容过滤等方面...
**JSoup库详解:用于HTML解析与提取** JSoup是一个非常强大的Java库,它主要用于处理实际世界中的HTML,提供了一种方便、灵活的方式来抓取和操作HTML内容。在这个例子中,我们将深入探讨如何使用JSoup从HTML文件中...
本文将深入探讨如何使用Jsoup解析HTML,并根据解析结果来修改文件名。我们将通过一个简单的示例来展示这个过程。 首先,我们需要理解Jsoup的基本用法。Jsoup库提供了一个强大的API,可以方便地解析HTML文档,提取...
**Android使用Jsoup技术解析HTML** Jsoup是一个Java库,专为处理真实世界的HTML而设计。在Android开发中,我们经常需要从网页抓取数据,比如解析新闻标题、获取图片链接或者提取用户评论等。Jsoup提供了一种简单、...
- `jsoup`并不支持完整的DOM解析,对于复杂的DOM操作,可能需要考虑其他库,如`Jsoup`与`jsoup-dom`结合使用。 总结,`jsoup`为Android开发者提供了一个强大且易于使用的工具,可以方便地解析和操作HTML内容。通过...
JSoup还提供了HTML清理功能,可以将不规范的HTML代码标准化,消除潜在的安全问题。例如: ```java String dirtyHtml = "<div><script>alert('XSS!')</script>Hello</div>"; Document cleanedDoc = Jsoup.clean...
例如,可以先发送一个GET请求获取HTML,然后用Jsoup解析其中的JavaScript动态加载的数据源,再发送额外的请求来获取这些资源。 此外,Jsoup的兼容性极佳,它能很好地处理各种不规范的HTML,尽可能地恢复其结构,这...
在本文中,我们将深入探讨如何使用Jsoup解析HTML文件,并进一步将解析的数据导出到Excel表格。 首先,我们需要理解Jsoup的基本用法。Jsoup的核心在于`Connection`和`Document`对象。`Connection`用于建立与网页的...
在网页开发和数据抓取领域,处理HTML(超文本标记语言)文档时,经常会遇到不规范的HTML代码,这些代码可能由于各种原因如拼写错误、缺少闭合标签等导致解析困难。在这种情况下,jsoup和Jtidy这两个Java库就显得尤为...
例如,你可以通过Jsoup解析整个网页,然后获取指定标签的内容,如所有的`<p>`段落或者`<a>`链接。 **二、选择器查询** Jsoup支持CSS选择器,这使得从HTML文档中定位特定元素变得非常直观。你可以使用类似于jQuery...
**Jsoup网络爬虫项目详解** Jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。这个项目是基于Jsoup来实现的网络爬虫,非常适合初学者...
3. 清理不规范HTML:网页源代码可能存在不标准的HTML标签和属性,Jsoup会尝试修复这些问题,提供一个干净的、结构化的文档模型。 4. 文档操作:除了查询,Jsoup还允许修改DOM结构,如添加、删除或更新元素和属性。...
### 关于Android之Jsoup解析 #### 一、Jsoup简介及主要功能 Jsoup是一款专为Java设计的HTML解析库,它可以帮助开发者轻松地解析HTML文档并从中抽取所需的数据。Jsoup支持从URL地址、文件或字符串等多种来源读取...
Jsoup提供了方法来从元素中抽取属性值、文本内容和HTML代码。这些方法都是安全的,能够有效防止XSS攻击。 #### 处理URLs Jsoup也支持对URL进行处理。它提供了便利的方法来获取和构建链接。 #### 数据修改 Jsoup...
例如,你可以使用`@Id`, `@Class`, `@Tag`, `@Attr`等注解来标注Java类的字段,它们分别对应HTML中的id属性、class属性、标签名和属性值。这样,当解析HTML时,JSoup-Annotations会自动将对应的HTML元素填充到Java...
- 虽然jsoup本身并不直接处理HTTP请求,但可以与Apache HttpClient或OkHttp等库结合使用,以获取网页内容并交由jsoup解析。 - 这样做的好处是能够控制请求头、超时和重试策略。 7. **实战应用** - jsoup常用于...
1. **HTML解析**:jsoup能够准确地解析HTML,考虑到现实世界中的网页通常不遵循严格的HTML规范,jsoup能够处理各种常见的不规范情况,如缺失的闭合标签、额外的空格等。 2. **CSS选择器**:jsoup支持CSS选择器,...
**标题:“使用 jsoup 对 HTML 文档进行解析和操作”** **内容概述:** 这篇博客主要探讨了如何利用 jsoup 这个 Java 库来解析和操作 HTML 文档。jsoup 是一个强大的库,它提供了丰富的 API,可以方便地解析 HTML、...
2. **安全的HTML清理**:Jsoup提供了一种安全的方式来清理不规范或者有潜在风险的HTML代码,确保在处理时不会引入恶意内容。 3. **链接处理**:它可以解析和提取页面中的链接,并进行规范化,比如处理相对URL,使其...