`
endual
  • 浏览: 3570095 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

JAVA Jsoup解析HTML代码

    博客分类:
  • java
 
阅读更多

以前用HTMLPARASER解析过页面,还做过一个网站下载器的一个框架,HTMLPARASER + Hibernate封装了几个函数而已。后来在浏览网页的时候,发现了一个很不错的页面解析的软件,jsoup,并不是有多么有效,而是觉得在调试的时候,

Jsoup自动的填充和修复了HTML的部分错误代码,比如没有结尾的标签等待。

 

下面介绍下Jsoup的一点简单的使用:

<DIV class="abc"> 我是内容 </DIV>

 

我们要解析的HTML无非就是去的标签属性的内容,还有就是标签的内容

 

Sring url = "<DIV class="abc"> 我是内容 </DIV>" ;

标签的内容用

Document doc = Jsoup.parse(url) ;

System.out.println(doc.text());

 

=====》》》》 我是内容

 

 

--------------------------------------------

取得class的abc

nodeChild.hasAttr("href")) {
String strUrl = nodeChild.attr("href") ;

 

 

--------------------------------------------------

 

用Jsoup解析做小的单位就是Node

一个Node就类似于

<DIV class="abc"> 我是内容 </DIV>

但是Node的方法中封装的不够理想,我觉得,没有一个方法是解析Node的内容的,所以要用上层方法

Document doc = Jsoup.parse(url) ;
 //System.out.println(doc.text()); //获取节点之间的内容的
 System.out.println(doc.text() );

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    JAVA jSOUP解析html

    `Test01.java`负责使用jSoup解析HTML并提取所需信息,而`UrlUtils.java`则辅助处理URL相关的操作,如生成合法请求的URL,或对获取的链接进行编码和解码。 总结,jSoup是Java中解析和操作HTML的强大工具,其易于使用...

    使用Jsoup解析html网页

    相比于标准的DOM解析器,Jsoup更注重实际的网页解析需求,它的错误容忍度更高,能够处理一些不规范的HTML代码。 总结来说,Jsoup是Java开发者处理HTML时的强大工具,无论是在数据抓取、网页验证还是内容过滤等方面...

    jsoupAPI解析html

    总结来说,jsoup是一个强大且易用的Java库,它的API设计简洁,支持HTML解析、选择、操作等功能,是处理HTML数据的理想工具。无论是网页抓取、数据提取还是内容修改,jsoup都能提供高效且安全的解决方案。

    jsoup在java中解析dom

    jsoup在java代码中高效解析html字符串为dom结构,并可实现对dom结构的灵活操作,特别适合移动端返回字段为html形式的解析过滤处理

    java jsoup爬虫代码

    Java Jsoup爬虫是一种在Java编程环境中利用Jsoup库进行网页数据抓取的工具。Jsoup是一个非常流行的库,它提供了强大的HTML解析和提取功能,使得开发者能够方便地获取网页上的文本、图片等信息。本篇文章将深入探讨...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    在本例中,我们通过Jsoup获取到了京东商品页面的静态HTML代码,但价格信息并未包含在内。通过分析页面源码发现,商品价格是通过JavaScript异步调用接口填充的。通过观察接口的URL结构,我们可以发现,其中包含了商品...

    Jsoup解析html+xml

    二、Jsoup解析HTML 1. **连接并下载HTML文档**:Jsoup提供`connect()`方法连接到URL并下载HTML内容,然后使用`get()`方法获取下载的文档。 ```java Document doc = Jsoup.connect("http://example.com").get(); ...

    用Jsoup解析html的所有jar包

    这个压缩包文件“用Jsoup解析html的所有jar包”显然是包含了使用Jsoup进行HTML解析所需的全部依赖。 首先,我们需要了解Jsoup的基本用法。Jsoup的核心功能在于它能够通过连接到一个URL或读取本地HTML文件来获取HTML...

    jsoup解析HTML

    在名为"NewSipder"的项目中,你可能正在构建一个网络爬虫,利用JSoup解析HTML内容。爬虫可能包括以下步骤: 1. **设置连接参数**:配置Jsoup连接,如超时时间、重试次数等。 2. **抓取页面**:使用`Jsoup.connect()...

    spring boot+java +jsoup+ 爬虫

    在图片爬取过程中,首先,我们需要设置一个起始URL,然后使用Jsoup解析该页面的HTML内容。通过选择器如`img[src]`,可以找到所有的图片链接。接下来,可以使用Java的HttpURLConnection或HttpClient库,向每个图片URL...

    Jsoup库文件;Jsoup解析Java包

    Jsoup是一款强大的Java库,专为处理HTML文档而设计,同时也支持XML解析。它提供了简单易用的API,使得开发者可以方便地抓取、解析、修改以及清理HTML内容。Jsoup能够模拟浏览器的行为,理解HTML文档的结构,并通过...

    Jsoup解析网址与浏览器查看内容不一致

    在进行Web抓取或网页解析时,我们常常会遇到Jsoup解析结果与浏览器显示内容不一致的情况。这主要是由于服务器端根据不同的用户代理(User-Agent)来判断访问者使用的设备类型,从而提供相应的页面版本。例如,如果你...

    jsoup解析html的java代码方法

    这个方法很容易解析方式 例子中label标签下 input 等

    jsoup Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容

    它使用了最新的HTML5规范,可以处理不规范的HTML代码,确保在解析过程中保持数据的完整性。 2. **DOM操作**:jsoup提供了类似于DOM(文档对象模型)的API,使开发者能够通过元素ID、属性或其他HTML结构来查找和操作...

    使用java-jsoup解析html页面内容,爬取想要的信息(如号段)

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 可以从包括字符串、URL 地址...

    java的jsoup

    Java的Jsoup库是一个强大的工具,用于解析、提取和操作HTML。这个库使得在Java程序中处理网页内容变得异常简单,特别适用于数据抓取和Web爬虫任务。在这个项目中,`com.start.java`文件是一个示例,展示了如何使用...

    jsoup解析html所需包1.7.3

    标题中的"jsoup解析html所需包1.7.3"表明我们将讨论的是JSoup 1.7.3版本,这个版本包含了三个关键的组件。 1. **jsoup-1.7.3.jar**:这是JSoup的核心库文件,包含了所有用于解析HTML的类和方法。开发人员在项目中...

    jsoup解析html修改文件名

    本文将深入探讨如何使用Jsoup解析HTML,并根据解析结果来修改文件名。我们将通过一个简单的示例来展示这个过程。 首先,我们需要理解Jsoup的基本用法。Jsoup库提供了一个强大的API,可以方便地解析HTML文档,提取...

    Android使用Jsoup技术解析HTML

    **Android使用Jsoup技术解析HTML** Jsoup是一个Java库,专为处理真实世界的HTML而设计。在Android开发中,我们经常需要从网页抓取数据,比如解析新闻标题、获取图片链接或者提取用户评论等。Jsoup提供了一种简单、...

    java课程设计java jsoup 爬取1688网站信息,详细例子

    它的跨平台特性(Write Once, Run Anywhere)使得Java代码能在多种操作系统上运行。对于初学者来说,Java具有良好的学习曲线,语法清晰,易于理解和掌握。 Jsoup是Java的一个开源库,专门用于处理HTML文档。它提供...

Global site tag (gtag.js) - Google Analytics