- 浏览: 184744 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (228)
- 链接数据库 (1)
- Linux下面安装tomcat步骤 (1)
- 数据库简单添加索引 (1)
- Ubuntu 16.04安装jdk步骤 (1)
- Ubuntu 16.04安装mysql链接工具workbench (1)
- Java基础 (1)
- Java 获取两个时间的时间查 如 1 天 2 小时 30 分钟 (1)
- jdbc链接增删该查 (1)
- springboot 跨域解决 (1)
- springboot如何读取配置文件(application.yml)中的属性值 (1)
- springboot配置redis (1)
- 数据库访问优化法则 (1)
- springboot 配置定时任务 (1)
- 使用Spring Boot上传文件 (1)
- Java并发编程:Callable、Future和FutureTask (1)
- springboot配置所有信息demo (1)
- 常用软件地址 (1)
- Java DateUtil时间大全 (1)
- Java DateUtil当天,本周,本月时间获取方法 (1)
- @Data的用法 (1)
- 身份证工具类 (1)
- springboot添加日志 (1)
- List集合中的对象按照某个字段去重实现 (1)
- JavaBean和Map转换封装类 (1)
- StringUtils工具类用法 (1)
- BigDecimal用户详情 (1)
- java常用集合总结 (1)
- openfile 插件开发步骤 (0)
- Linux rpc客户端步骤 (1)
- Java开发必会的Linux命令 (1)
- springboot配置拦截器,控制登录跳转 (1)
- springboot 异步调用的方法 (0)
- springboot如何读取配置文件test.properties (1)
- springboot 异步调用的方法 (1)
- HttpClient操作,HttpPost (1)
- HttpGet (1)
- HttpDelete (1)
- HttpPut (1)
- mybatis生成代码后,想用自己的关联查询demo (1)
- Arrays工具类十大常用方法 (1)
- 如何生成唯一订单号 (1)
- 订单号唯一性 (1)
- msyql lest的用法 (1)
- //循环递归删除 (0)
- 循环递归删除 (1)
- java 属性首字母大写返回json解决办法 (1)
- 根据两点间经纬度坐标(double值),计算两点间距离,单位为米 (1)
- 运用开发好的jar部署到linux服务中 (1)
- mybatis批量新增 (1)
- mybatis 增删该查demo,新手必看 (1)
- java中字符串查找一个字符串的个数几种方法 (1)
- @Select in 的用法 (1)
- Ubuntu 16.04使用ieda简单配置 (1)
- 统计一个字符串中相应字符出现的次数 (1)
- SimpleDateFormat同步的解决办法 (1)
- gradle打包springboot jar例子 (1)
- java 提取字符串中的数字 (1)
- springboot 对像异常处理,还可以作为全部异常处理 (1)
- 面试题 (0)
- Linux下面安装virtualBox (1)
- java带有效期的map (1)
- 2018年JAVA基础面试题和高级面试题总结 (1)
- mysql修改密码的方法 (1)
- 排名前 16 的 Java 工具类 (1)
- 最完整的Linux常用命令大全 (1)
- Mysql 开发标准规范 (1)
- idea 快捷键 (1)
- mysql 建立索引 (1)
- Java中判断字符串是否为数字的五种方法 (1)
- springboot集成redis (1)
- springboot异步调用demo (1)
- springboot2集成redis (1)
- springboot2集成Elasticsearch (1)
- java过滤敏感字体的方式 (1)
- 对象的值赋给另一个对象 (1)
- mybitse+pagehelper 的使用方法 (1)
- java时间的处理 (1)
- xshell5 下载地址 (1)
- springboot2集成Excel (1)
- 检查数组是否包含某个值的方法 (1)
- 关于Java代码优化的N条建议! (1)
- Java Map按Key值进行排序 (1)
- List进行排序 (1)
- Stream 完整实例 (1)
- StringUtils isNoneBlank和isAnyBlank——demo (1)
- vim最全常用命令 (1)
- JWT生成Token (1)
- 学习参看地址 (1)
- java初始化数据 (1)
- 简单json (1)
- 数据库脚本 (1)
- restTemplate http请求 (1)
- 学习网站 (1)
- JsonUtil (1)
- Rsa (1)
- BeanUtils的赋值方法比较 (1)
- HttpClientUtil (2)
- ValidUtils (0)
- 读取excel,批量插入库demo (1)
- springboot对redis封装使用 (1)
- java后端简答验证码 (1)
- java高级面试题及其答案 (1)
- 序列换成json时 (1)
- 将所有的long变成string (1)
- ControllerAdvice (0)
- RedisService 工具类 (1)
- Java常用正则表达式验证工具类RegexUtils (1)
- CollectionUtil (1)
- thrift使用 (1)
- springboot播客学习 (1)
- mybitse 批量更新 (1)
- https://www.cnblogs.com/cxiaocai/p/11715874.html (1)
- elasticsearch安装及其head步骤 (0)
- elasticsearch7.6.2安装及其head、kibana、ik分词器步骤 (0)
- elasticsearch7.6.2集成springboot (0)
- gradle仓库选址 (1)
- elasticsearch7.6.2集成springboot2.2.6---2 (1)
- elasticsearch7.6.2安装及其head、kibana、ik分词器步骤-----1 (1)
- elasticsearch7.6.2集成springboot2.2.6基本语法---3 (1)
- Jsoup (1)
- elasticsearch7.6.2集成springboot2.2.6----demo (1)
- mybatis官网地址 (1)
- springboot发送邮件到qq (1)
- navicat Premium 链接sql Server的方法 (1)
- 简单开发springboot搭建 (1)
- sqlServer 查询两个小时的sql语句 (1)
- BigDecimalUtil (1)
- 雪花算法生成id (1)
- JsonUtils (1)
- Spring Boot监控与管理的实现 (1)
- springboot 使用undertow启动,替换tomcat (1)
- RedisConfig配置使用 (1)
- RedisUtil (1)
- easypoi读取excel (1)
- easyexcel读取excel (0)
- easyexcel读取excel与下载 (1)
- 生成指定长度的随机数 (1)
- Spring Boot AOP实战 (1)
- fastjsonfastjson新手必看 (1)
- 获取IP地址 (1)
- CommonUtils (1)
- 5万字长文:Stream和Lambda表达式最佳实践-附PDF下载 (1)
- DateUtils 最新工具类 (1)
- screw的使用 (1)
- 15000 字的 SQL 语句大全 (1)
- hutool (1)
- PdfToWord (1)
- MySQL修改最大连接数 (1)
- MAP排序 (1)
- 归纳从文件中读取数据的六种方法-JAVA IO基础总结 (1)
- 天气 (1)
- Intellij IDEA中Mybatis Mapper自动注入警告的6种解决方案 (1)
- 全网最全编程学习网站汇总来了,还不赶快收藏 (1)
- win10 (0)
- 电脑知识 (0)
- util工具类 (1)
- ieda提示mapper报错 (1)
- zysnba (1)
- 自增方式 (1)
- mybits链表查询 (1)
- SpringBoot如何优雅的处理校验参数 (1)
- 参考记录 (1)
- 企业微信封装方法 (1)
- 二维码 (1)
- mysql简单创建索引 (1)
- msyql函数 (1)
- mybitse-plus多表查询demo (1)
- git 提交本地代码步骤 (1)
- gradle5.X以上lombok引入 (1)
- SpringBoot定时任务及Cron表达式详解 (1)
- Hutool工具集之DateUtil(日期时间工具)详解使用 (1)
- 对象属性为空字符串变成null (1)
- DateUtils 工具类 (0)
- face++照片不对工具类 (1)
- 判断某个值是否在list集合中的某个对象中存在 (1)
- mybatisplus时间更新操作 (1)
- Java8 List通用方法处理总结 (1)
- 阿斯蒂芬 (0)
- springboot多数据源配置 (0)
- MyBatis和MyBatis-Plus 官网地址 (1)
- jwt (0)
- java---ValidUtils (1)
- Java之下载网络图片到本地文件夹 (1)
- 初始化内容数据 (1)
- springboot启动指定端口和启动环境 (1)
- 根据生日计算年龄 (1)
- idea快捷键大全 (1)
- springboot数据验证例子 (1)
- springboot文章 (1)
- 获取当前时间,推迟一年 (0)
- 获取当前时间,推迟一周 推迟一年示例 (1)
- ResultBean返回对象 (1)
- SpringBoot注解最全详解 (1)
- JeecgBoot (1)
- 电脑优化 (0)
- 简单数据队列 (1)
- CacheUtil换成工具类 (0)
- CacheUtil缓存工具类 (0)
- xml和对象互转 (0)
- 导出word (0)
- 企业微信通过code获取用户基本信息 (1)
- Java开发中的一些小技巧 (1)
- 判断当前时间是否在一个时间区间例如8点:21点 (1)
- springboot 启动指定环境 (1)
- 打印springboot启动的环境 (1)
- 根据时间日期获取当天是周几 (1)
- LocalDateTimeToString (1)
- java导出word (1)
- java 对xml和对象互转 (1)
- java CacheUtil缓存工具类 (1)
- 史上最牛逼电脑优化,让电脑飞起来 (1)
- isEmpty 和 isBlank 的用法区别 (1)
- 根据图片url地址获取其流InputStream (1)
- springboot解决LocalDateTime (1)
- springboot配置文件list映射 (1)
- SpringBoot中必须掌握的45个注解 (1)
- sql 优化的 15 个小技巧 (1)
- Cron表达式 (1)
- 数据库创建时间和修改时间默认值 (1)
- 小程序解析手机号 (1)
- 小程序获取手机号 (0)
- java 获取resource下面的文件路径,springboot打成jar也可以使用 (1)
- 数据库字段不显示对象和swwager前段不显示 (1)
- java生成pdf (1)
- springboot 异步调用 (1)
- java获取时间段内的每一天 (1)
- hutool----DateUtil简单的时间 (1)
- java 8两个List集合取交集、并集、差集、去重并集 (1)
- 服务调用demo (1)
- hutool导入excel (1)
- hutool导出 (1)
- 切面日志 (1)
- 校验参数为空 (1)
- 两个集合对象某一个属性相匹配 (1)
- JAVA stream流详细教程 (1)
- 查看java进程的命令 (1)
- Java 保留两位小数 百分数 (1)
- freemarker读写word模板生成word文档 (1)
- springboot项目中,读取 resources 目录下的文件的9种方式 (1)
- Knife4j (1)
- Java8 获取两个List交集 (1)
- list泛型和list对象交集 (1)
- 未来7天过生日的孩子sql (1)
- 数据校验,全局异常 (1)
- 获取最近10天过生日的sql (1)
- 随机数 (1)
- Java获取两个日期的天数打印 (1)
- 通过时间获取星期几 (1)
- Java时间类型相互转化 (2)
- 小程序登录 (1)
- 手机号 (0)
- sse调用 (0)
- httpsse调用 (1)
- 初始延迟3秒执行任务 (0)
最新评论
加入jar //jsoup
implementation 'org.jsoup:jsoup:1.10.2'
代码为下面:
package com.zys.es.demo762.utils;
import com.zys.es.demo762.entity.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
public class JsoupUtil {
public static List<Content> getContent(String keyword){
//地址京东为例
String url="https://search.jd.com/Search?keyword="+keyword;
List<Content> list= new ArrayList<>();
try {
//解析
Document document = Jsoup.parse(new URL(url), 3000);
//所有js的方法,这里都有
Element element = document.getElementById("J_goodsList");
//获取所有li元素
Elements lis=element.getElementsByTag("li");
for (Element li : lis) {
String img= li.getElementsByTag("img").eq(0).attr("src");
// String img= li.getElementsByTag("img").eq(0).attr("source-data-lazy-img");
String price=li.getElementsByClass("p-price").eq(0).text();
String title =li.getElementsByClass("p-name").eq(0).text();
Content content = new Content();
content.setImg(img);
content.setPrice(price);
content.setTitle(title);
list.add(content);
// System.out.println("------------------");
// System.out.println(img);
// System.out.println(price);
// System.out.println(title);
}
} catch (IOException e) {
e.printStackTrace();
}
return list;
}
public static void main(String[] args) throws Exception{
List<Content> list= getContent("java");
System.out.println(list);
}
}
implementation 'org.jsoup:jsoup:1.10.2'
代码为下面:
package com.zys.es.demo762.utils;
import com.zys.es.demo762.entity.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
public class JsoupUtil {
public static List<Content> getContent(String keyword){
//地址京东为例
String url="https://search.jd.com/Search?keyword="+keyword;
List<Content> list= new ArrayList<>();
try {
//解析
Document document = Jsoup.parse(new URL(url), 3000);
//所有js的方法,这里都有
Element element = document.getElementById("J_goodsList");
//获取所有li元素
Elements lis=element.getElementsByTag("li");
for (Element li : lis) {
String img= li.getElementsByTag("img").eq(0).attr("src");
// String img= li.getElementsByTag("img").eq(0).attr("source-data-lazy-img");
String price=li.getElementsByClass("p-price").eq(0).text();
String title =li.getElementsByClass("p-name").eq(0).text();
Content content = new Content();
content.setImg(img);
content.setPrice(price);
content.setTitle(title);
list.add(content);
// System.out.println("------------------");
// System.out.println(img);
// System.out.println(price);
// System.out.println(title);
}
} catch (IOException e) {
e.printStackTrace();
}
return list;
}
public static void main(String[] args) throws Exception{
List<Content> list= getContent("java");
System.out.println(list);
}
}
相关推荐
Java + IntelliJ IDEA + Jsoup 爬虫是一个高效且便捷的网页抓取解决方案。Jsoup 是一个用于处理实际世界HTML的Java库,它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在这个项目...
在"jsoup爬虫学习源代码"中,你可能已经看到了如何构建一个基本的爬虫项目。通常,一个简单的`jsoup`爬虫会包括以下几个步骤: 1. **连接网页**:使用`Jsoup.connect(url).get()`方法连接到指定的网页,并获取HTML...
jsoup爬虫案例...................................................................................。。。。。。。。。。。。。。。
java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.
初级爬虫
**SpringBoot+Jsoup爬虫详解** 在现代Web开发中,数据抓取(或称爬虫)是一项重要的技能,尤其对于数据分析、市场研究和自动化任务。SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将...
使用jsoup进行爬虫并获取模板网页具体数据,获取总页数进行自动翻页处理。
### Jsoup爬虫技术及其API应用 #### 一、Jsoup简介 Jsoup是一款用于Java的应用程序接口(API),主要用于从HTML文档中提取和操作数据。它提供了强大的功能,包括解析HTML文档、清洗用户输入的数据、从网站抓取数据等...
在创建Jsoup爬虫时,我们需要遵循以下步骤: 1. **连接网页**:首先,我们需要使用Jsoup的`connect()`方法建立与目标URL的连接。这个方法返回一个`Connection`对象,可以设置请求头、超时时间等参数。 ```java ...
**jsoup爬虫软件技术详解** jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。在Web抓取和网页数据提取领域,jsoup是一个非常实用的...
Java Jsoup爬虫是一种在Java编程环境中利用Jsoup库进行网页数据抓取的工具。Jsoup是一个非常流行的库,它提供了强大的HTML解析和提取功能,使得开发者能够方便地获取网页上的文本、图片等信息。本篇文章将深入探讨...
总之,Android中的Jsoup爬虫协议提供了一种高效且易于使用的工具来抓取和解析网页信息。结合合理的异步处理和异常处理策略,开发者可以构建强大的网络数据获取应用。通过深入学习Jsoup的选择器语法和实践各种网络...
**jsoup爬虫demo** Java中的jsoup库是一款强大的HTML解析和抓取工具,它使得在Java中处理网页内容变得简单。本示例将详细解释如何利用jsoup进行网页爬虫开发,并通过输出流将抓取的数据写入本地文件。 首先,你...
基于Jsoup爬虫抓取图吧网地名,可以实现到3级地名的爬虫。热门地名,旅游地名。按照一级二级分类。保存到txt文本。软件使用jswing,界面可配置。有需要的来下载吧。搭配动态刷新路由器ip效果比较佳。防止ip被限制。
通过学习这个项目,我们可以深入理解如何在Java中构建一个高效的网页爬虫,掌握Jsoup的用法,以及如何处理网络爬虫可能遇到的各种问题。对于想要涉足网络爬虫领域的Java开发者来说,这是一个很好的学习资源。
总结来说,这个"爬虫实例(jsoup).zip"提供了一个完整的jsoup爬虫项目实例,涵盖了从连接网页、解析HTML到存储数据的整个流程,对于初学者来说是一份宝贵的资源,有助于快速掌握网页抓取和数据处理的基础知识。...
用Jsoup的技术抓取某个Q某阅读的信息,然后通过获得的内容解析出需要的内容。
**Jsoup网络爬虫项目详解** Jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。这个项目是基于Jsoup来实现的网络爬虫,非常适合初学者...
在本项目中,Jsoup爬虫可能采用递归或者基于链接的策略来遍历目标网站。需要注意的是,爬虫必须遵守robots.txt协议,并尊重网站的版权,避免对服务器造成过大的压力。 **6. 数据处理与存储** 爬取到的数据通常需要...
使用jsoup技术连接网站地址,通过改变参数获取网站div模块下的所有信息。通过hibernate技术保存到mysql数据库。项目中包括dbutil链接数据库的工具类,执行sql的helper工具类,获取网站div图片保存到本地的工具类信息...