今天用了jsoup 解析页面商品信息,感觉比用xpath获取信息准确多了
下面就记录一下:
一、首先去 http://jsoup.org/download 下载jsoup的jar包。
二、下面记录下相关代码:
Document doc = Jsoup.connect(url).get(); //将htm转换成Document类型数据结构
doc.select("div:has(div) div#spec-n1:has(img) img").first().attr("src")); //查找div下含有div的标签
并且 div的id='spec-n1',此div第一个img标签,img里属性是src的值。
doc.select("div:has(div) div.crumb:has(a) a:eq(4)").text(); //查找class='crumb'的div下第4个a标签
下的值。
doc.select("div:has(div) div#name:has(h1)").text(); //查找id='name'的div下的h1标签的值。
doc.select("tbody:has(tr) td.tdTitle:contains(品牌) + td").text(); //查找class='tdTitle'的td标签里
含有‘品牌’td的下一个td标签中内容。
doc.select("script[type=text/javascript]:not([src~=[a-zA-Z0-9./\\s]+)"); //查找含有此<script
type="text/javascript">……</script>内容,不含有script标签中有src属性的script,如:
<script src="url" type="text/javascript"></script>。
分享到:
相关推荐
1. **数据抓取**:Jsoup可以轻松抓取网页上的结构化数据,如商品价格、评论等,用于数据分析或构建应用。 2. **网站验证**:在自动化测试中,Jsoup可以帮助验证HTML元素是否按预期显示或交互。 3. **内容过滤**:...
此外,Jsoup还提供了链接处理能力,可以解析页面上的链接,包括相对链接和绝对链接,这对于网页爬虫和数据抓取来说非常有用。 XML解析方面,虽然Jsoup主要设计用于HTML处理,但它也具备解析XML文档的能力。XML与...
**Jsoup解析与使用** Jsoup是一款非常实用的Java库,专为网页抓取和解析而设计。它提供了丰富的API,使得开发者可以方便地提取结构化数据,类似于浏览器执行JavaScript的方式,但更专注于HTML文档的处理。Jsoup的...
例如,你可以用它来提取新闻网站的最新文章标题,或者从电商网站上抓取商品信息。 通过以上介绍,我们可以看到JSoup是一个功能强大的HTML解析库,对于处理和分析网页内容有着极大的帮助。在实际项目中,结合Java的...
接着,定义一个模型类,对应我们要抓取的京东商品信息结构。使用JSoup连接到京东商品页面,解析HTML获取所需数据,并将这些数据转化为模型对象。 接下来,我们创建一个ElasticsearchTemplate实例,用于与Elastic...
在本项目中,我们主要探讨的是如何利用Java编程语言,结合Jsoup库构建一个多线程的网络爬虫,用于抓取京东网站的商品信息,并将这些数据有效地存储到数据库中。Jsoup是一个非常实用的Java库,它使得解析HTML文档变得...
例如,你可以用它来抓取电商网站的商品信息,或者分析社交媒体上的帖子内容。 总的来说,Jsoup为Java开发者提供了一种高效、灵活且易于使用的工具,帮助他们处理HTML文档,无论是解析、提取还是更新内容。通过熟练...
在本例中,我们通过Jsoup获取到了京东商品页面的静态HTML代码,但价格信息并未包含在内。通过分析页面源码发现,商品价格是通过JavaScript异步调用接口填充的。通过观察接口的URL结构,我们可以发现,其中包含了商品...
1. **网页爬虫**:jsoup常用于构建简单的网页爬虫,从网页上提取特定数据,如新闻标题、商品价格等。 2. **内容提取**:对于那些没有提供API的数据源,开发者可以利用jsoup抓取并解析HTML,提取需要的信息。 3. **...
《深入理解Java库:Jsoup解析与应用》 在Java编程世界中,Jsoup是一个非常重要的库,尤其在处理HTML文档和数据抓取时。标题中的"org.jsoup.jar"是Jsoup库的核心组件,它是Jsoup项目的二进制发布形式,包含了所有...
Jsoup能够解析HTML字符串或者从URL直接下载HTML内容,然后通过CSS选择器来提取数据,实现网页信息的抓取。 2. **核心功能**: - **HTML解析**:Jsoup支持HTML5标准,能准确解析各种复杂的HTML结构,包括不规范的...
在这个项目中,我们关注的是使用Java和Jsoup库来爬取1688网站的信息。这是一个非常实用的技术,它可以帮助我们自动化地获取网页上的数据,如商品名称、价格、评价等,为数据分析或构建电商平台的模拟系统提供基础。 ...
Android Studio 爬虫 之 简单实现使用 jsoup/okhttp3 爬取购物商品信息的案例demo 1、okhttp3 获得网页的 html 内容 2、jsoup 解析 html 的内容,获取需要的部分信息
比如,你可以用它来抓取网站上的新闻标题、用户评论,或者从电商网站提取商品信息。此外,它也可以与Spring、Hibernate等其他Java框架结合,构建更复杂的Web应用。 总结来说,jsoup是一个强大的HTML解析和操作工具...
下面是一个简单的例子,展示如何使用JSoup解析并提取网页的标题: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; public class JsoupExample { public ...
- 利用Jsoup进行网页抓取,可以实现新闻标题的收集、商品信息的获取、评论内容的抓取等多种任务。 - 学习这个项目,你可以了解到如何从网页中抓取特定数据,如链接、标题、内容等,并将这些数据保存到文件或数据库...
- **Web抓取**:jsoup是抓取和分析网页内容的理想工具,尤其适用于简单的数据抓取任务,如获取商品价格、新闻标题等。 - **数据提取**:在爬虫项目中,jsoup可以帮助提取结构化数据,如用户评论、文章内容等。 - *...
- **Web爬虫**:通过Jsoup,开发者可以构建高效的爬虫程序,抓取网页内容,如新闻文章、产品信息等。 - **数据提取**:例如,从电商网站抓取商品价格、评论,或者从社交媒体提取用户信息。 - **自动化测试**:在...