`
jilong-liang
  • 浏览: 484188 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类

Jsoup解析HTML代码标签与属性

阅读更多
package com.app.jsoup;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


/**
 *@Author:liangjilong
 *@Date:2013-8-8
 *@Email:jilongliang@sina.com
 *@Version:Version1.0
 *@CopyRight:liangjilong
 *@Description:
 */
public class Jsoup1 {
	public static void main(String[] args) {
		StringBuffer buffer=new StringBuffer("<table border=\"1\" align=\"center\">");
		buffer.append("<tr><td colspan=\"2\" class='td'>电&nbsp;&nbsp;话:</td><td id=\"tel\"></td></tr>");
		buffer.append("<tr><td colspan=\"2\" class='td'>用&nbsp;&nbsp;户:</td><td id=\"username\"></td></tr>");
		buffer.append("<tr><td colspan=\"2\" class='td'><img src=\"images/1.png\"/></td></tr>");
		buffer.append("</table>");
  		String html=buffer.toString();
  		Document doc=Jsoup.parse(html, "GBK");
  		Elements table=doc.select("table");//选择table标签
  		for(Element tab:table){
  			tab.attr("border", "2");//修改table的边框值
  		}
  		 Element td_classfirst = doc.select("td.td").first(); 
  		 td_classfirst.remove();//把第一个td的class=td的样式的标签都移除
  		 
  		 Element td_classlast = doc.select("td.td").last(); 
  		 td_classlast.remove();//把第最后的一个td的class=td的样式的标签都移除
  		 
  		 Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 图片的元素
  		 for(Element png:pngs){
  			 String pngText=png.text();
  			 String src=png.attr("src");//根据属性名获取src的路径
  			 System.out.println(src+pngText);
  		 }
  		 //在id为tel的td标签里面添加一个value等于121212121的值 如:<td id="tel" value="121212121"></td>
  		 doc.getElementById("tel").val("121212121");//
  		 //在id为tel的td标签添加一个文本值 如:<td id="tel">121212121</td>
  		 doc.getElementById("tel").html("121212121");//
  		 
  		 String newHtml=doc.toString();
  		
  		System.out.println(newHtml);
	}
}

 文章推荐

0
0
分享到:
评论

相关推荐

    jsoupAPI解析html

    **jsoup API解析HTML** jsoup是一个非常强大的Java库,专为处理真实世界的HTML而设计。它提供了方便的API,用于提取和操作数据,使用DOM,CSS和jQuery-like方法。在深入jsoup的API之前,我们需要理解HTML解析的重要...

    使用Jsoup解析html网页

    相比于标准的DOM解析器,Jsoup更注重实际的网页解析需求,它的错误容忍度更高,能够处理一些不规范的HTML代码。 总结来说,Jsoup是Java开发者处理HTML时的强大工具,无论是在数据抓取、网页验证还是内容过滤等方面...

    jsoup提取.html部分属性

    **JSoup库详解:用于HTML解析与提取** JSoup是一个非常强大的Java库,它主要用于处理实际世界中的HTML,提供了一种方便、灵活的方式来抓取和操作HTML内容。在这个例子中,我们将深入探讨如何使用JSoup从HTML文件中...

    jsoup解析html修改文件名

    本文将深入探讨如何使用Jsoup解析HTML,并根据解析结果来修改文件名。我们将通过一个简单的示例来展示这个过程。 首先,我们需要理解Jsoup的基本用法。Jsoup库提供了一个强大的API,可以方便地解析HTML文档,提取...

    Android使用Jsoup技术解析HTML

    **Android使用Jsoup技术解析HTML** Jsoup是一个Java库,专为处理真实世界的HTML而设计。在Android开发中,我们经常需要从网页抓取数据,比如解析新闻标题、获取图片链接或者提取用户评论等。Jsoup提供了一种简单、...

    android使用jsoup 解析html文件

    - `jsoup`并不支持完整的DOM解析,对于复杂的DOM操作,可能需要考虑其他库,如`Jsoup`与`jsoup-dom`结合使用。 总结,`jsoup`为Android开发者提供了一个强大且易于使用的工具,可以方便地解析和操作HTML内容。通过...

    JSoup解析URL或HTML的内容

    JSoup还提供了HTML清理功能,可以将不规范的HTML代码标准化,消除潜在的安全问题。例如: ```java String dirtyHtml = "&lt;div&gt;&lt;script&gt;alert('XSS!')&lt;/script&gt;Hello&lt;/div&gt;"; Document cleanedDoc = Jsoup.clean...

    Jsoup操作解析Html文件

    例如,可以先发送一个GET请求获取HTML,然后用Jsoup解析其中的JavaScript动态加载的数据源,再发送额外的请求来获取这些资源。 此外,Jsoup的兼容性极佳,它能很好地处理各种不规范的HTML,尽可能地恢复其结构,这...

    jsoup和jtidy 对html操作,将不规范的html转换为xhtml

    在网页开发和数据抓取领域,处理HTML(超文本标记语言)文档时,经常会遇到不规范的HTML代码,这些代码可能由于各种原因如拼写错误、缺少闭合标签等导致解析困难。在这种情况下,jsoup和Jtidy这两个Java库就显得尤为...

    使用Jsoup对Html文件解析

    在本文中,我们将深入探讨如何使用Jsoup解析HTML文件,并进一步将解析的数据导出到Excel表格。 首先,我们需要理解Jsoup的基本用法。Jsoup的核心在于`Connection`和`Document`对象。`Connection`用于建立与网页的...

    Jsoup解析网页工具类

    例如,你可以通过Jsoup解析整个网页,然后获取指定标签的内容,如所有的`&lt;p&gt;`段落或者`&lt;a&gt;`链接。 **二、选择器查询** Jsoup支持CSS选择器,这使得从HTML文档中定位特定元素变得非常直观。你可以使用类似于jQuery...

    Jsoup-网络爬虫项目

    **Jsoup网络爬虫项目详解** Jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。这个项目是基于Jsoup来实现的网络爬虫,非常适合初学者...

    Jsoup源码以及chm文件

    3. 清理不规范HTML:网页源代码可能存在不标准的HTML标签和属性,Jsoup会尝试修复这些问题,提供一个干净的、结构化的文档模型。 4. 文档操作:除了查询,Jsoup还允许修改DOM结构,如添加、删除或更新元素和属性。...

    关于android之Jsoup解析

    ### 关于Android之Jsoup解析 #### 一、Jsoup简介及主要功能 Jsoup是一款专为Java设计的HTML解析库,它可以帮助开发者轻松地解析HTML文档并从中抽取所需的数据。Jsoup支持从URL地址、文件或字符串等多种来源读取...

    jsoup中文教程

    Jsoup提供了方法来从元素中抽取属性值、文本内容和HTML代码。这些方法都是安全的,能够有效防止XSS攻击。 #### 处理URLs Jsoup也支持对URL进行处理。它提供了便利的方法来获取和构建链接。 #### 数据修改 Jsoup...

    jsoup-jar包

    **JSoup:Java的网页抓取与解析库** JSoup是一个用Java编写的开源库,专为处理HTML文档而设计。它提供了丰富的API,使得开发者能够轻松地抓取、解析和操作网页内容。JSoup的核心功能包括从网络或本地文件系统获取...

    jsoup-annotations是Jsoup注解的POJO

    例如,你可以使用`@Id`, `@Class`, `@Tag`, `@Attr`等注解来标注Java类的字段,它们分别对应HTML中的id属性、class属性、标签名和属性值。这样,当解析HTML时,JSoup-Annotations会自动将对应的HTML元素填充到Java...

    HTML解析器 jsoup资料

    - 虽然jsoup本身并不直接处理HTTP请求,但可以与Apache HttpClient或OkHttp等库结合使用,以获取网页内容并交由jsoup解析。 - 这样做的好处是能够控制请求头、超时和重试策略。 7. **实战应用** - jsoup常用于...

    jsoup源码与文档

    1. **HTML解析**:jsoup能够准确地解析HTML,考虑到现实世界中的网页通常不遵循严格的HTML规范,jsoup能够处理各种常见的不规范情况,如缺失的闭合标签、额外的空格等。 2. **CSS选择器**:jsoup支持CSS选择器,...

    使用 jsoup 对 HTML 文档进行解析和操作

    **标题:“使用 jsoup 对 HTML 文档进行解析和操作”** **内容概述:** 这篇博客主要探讨了如何利用 jsoup 这个 Java 库来解析和操作 HTML 文档。jsoup 是一个强大的库,它提供了丰富的 API,可以方便地解析 HTML、...

Global site tag (gtag.js) - Google Analytics