`
zysnba
  • 浏览: 179700 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Jsoup爬虫

 
阅读更多
加入jar  //jsoup
    implementation 'org.jsoup:jsoup:1.10.2'


代码为下面:

package com.zys.es.demo762.utils;

import com.zys.es.demo762.entity.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

public class JsoupUtil {

    public static List<Content>  getContent(String keyword){
        //地址京东为例
        String url="https://search.jd.com/Search?keyword="+keyword;
        List<Content> list= new ArrayList<>();
        try {
            //解析
            Document  document = Jsoup.parse(new URL(url), 3000);
            //所有js的方法,这里都有
            Element element = document.getElementById("J_goodsList");
            //获取所有li元素
            Elements lis=element.getElementsByTag("li");
            for (Element li : lis) {
                String img= li.getElementsByTag("img").eq(0).attr("src");
//              String img= li.getElementsByTag("img").eq(0).attr("source-data-lazy-img");
                String price=li.getElementsByClass("p-price").eq(0).text();
                String title =li.getElementsByClass("p-name").eq(0).text();
                Content content = new Content();
                content.setImg(img);
                content.setPrice(price);
                content.setTitle(title);
                list.add(content);
//                System.out.println("------------------");
//                System.out.println(img);
//                System.out.println(price);
//                System.out.println(title);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

     return  list;
    }

    public static void main(String[] args) throws  Exception{

        List<Content>  list= getContent("java");
        System.out.println(list);

    }

}
分享到:
评论

相关推荐

    java+idea+jsoup 爬虫

    Java + IntelliJ IDEA + Jsoup 爬虫是一个高效且便捷的网页抓取解决方案。Jsoup 是一个用于处理实际世界HTML的Java库,它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在这个项目...

    jsoup爬虫学习之爬取博客(包含jsoup jar包)

    在"jsoup爬虫学习源代码"中,你可能已经看到了如何构建一个基本的爬虫项目。通常,一个简单的`jsoup`爬虫会包括以下几个步骤: 1. **连接网页**:使用`Jsoup.connect(url).get()`方法连接到指定的网页,并获取HTML...

    jsoup爬虫案例

    jsoup爬虫案例...................................................................................。。。。。。。。。。。。。。。

    java-Jsoup爬虫完整代码

    java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.

    java httpclient jsoup爬虫

    初级爬虫

    SpringBoot+jsoup爬虫

    **SpringBoot+Jsoup爬虫详解** 在现代Web开发中,数据抓取(或称爬虫)是一项重要的技能,尤其对于数据分析、市场研究和自动化任务。SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将...

    jsoup爬虫实战

    使用jsoup进行爬虫并获取模板网页具体数据,获取总页数进行自动翻页处理。

    jsoup爬虫中文api

    ### Jsoup爬虫技术及其API应用 #### 一、Jsoup简介 Jsoup是一款用于Java的应用程序接口(API),主要用于从HTML文档中提取和操作数据。它提供了强大的功能,包括解析HTML文档、清洗用户输入的数据、从网站抓取数据等...

    Jsoup爬虫简单案例

    在创建Jsoup爬虫时,我们需要遵循以下步骤: 1. **连接网页**:首先,我们需要使用Jsoup的`connect()`方法建立与目标URL的连接。这个方法返回一个`Connection`对象,可以设置请求头、超时时间等参数。 ```java ...

    jsoup爬虫软件技术

    **jsoup爬虫软件技术详解** jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。在Web抓取和网页数据提取领域,jsoup是一个非常实用的...

    java jsoup爬虫代码

    Java Jsoup爬虫是一种在Java编程环境中利用Jsoup库进行网页数据抓取的工具。Jsoup是一个非常流行的库,它提供了强大的HTML解析和提取功能,使得开发者能够方便地获取网页上的文本、图片等信息。本篇文章将深入探讨...

    Android Jsoup 爬虫协议抓取网页信息

    总之,Android中的Jsoup爬虫协议提供了一种高效且易于使用的工具来抓取和解析网页信息。结合合理的异步处理和异常处理策略,开发者可以构建强大的网络数据获取应用。通过深入学习Jsoup的选择器语法和实践各种网络...

    jsoup爬虫demo

    **jsoup爬虫demo** Java中的jsoup库是一款强大的HTML解析和抓取工具,它使得在Java中处理网页内容变得简单。本示例将详细解释如何利用jsoup进行网页爬虫开发,并通过输出流将抓取的数据写入本地文件。 首先,你...

    基于Jsoup爬虫抓取图吧网地名

    基于Jsoup爬虫抓取图吧网地名,可以实现到3级地名的爬虫。热门地名,旅游地名。按照一级二级分类。保存到txt文本。软件使用jswing,界面可配置。有需要的来下载吧。搭配动态刷新路由器ip效果比较佳。防止ip被限制。

    4493mote,Jsoup爬虫,java爬虫,美女爬虫

    通过学习这个项目,我们可以深入理解如何在Java中构建一个高效的网页爬虫,掌握Jsoup的用法,以及如何处理网络爬虫可能遇到的各种问题。对于想要涉足网络爬虫领域的Java开发者来说,这是一个很好的学习资源。

    爬虫实例(jsoup).zip

    总结来说,这个"爬虫实例(jsoup).zip"提供了一个完整的jsoup爬虫项目实例,涵盖了从连接网页、解析HTML到存储数据的整个流程,对于初学者来说是一份宝贵的资源,有助于快速掌握网页抓取和数据处理的基础知识。...

    JSoup爬虫小案例

    用Jsoup的技术抓取某个Q某阅读的信息,然后通过获得的内容解析出需要的内容。

    Jsoup-网络爬虫项目

    **Jsoup网络爬虫项目详解** Jsoup是一个Java库,设计用于处理真实世界的HTML,它提供了非常方便的API,用于提取和操作数据,遵循DOM、CSS以及jQuery选择器。这个项目是基于Jsoup来实现的网络爬虫,非常适合初学者...

    基于ssm框架的爬虫代码

    在本项目中,Jsoup爬虫可能采用递归或者基于链接的策略来遍历目标网站。需要注意的是,爬虫必须遵守robots.txt协议,并尊重网站的版权,避免对服务器造成过大的压力。 **6. 数据处理与存储** 爬取到的数据通常需要...

    jsoup爬虫获取某网站的信息

    使用jsoup技术连接网站地址,通过改变参数获取网站div模块下的所有信息。通过hibernate技术保存到mysql数据库。项目中包括dbutil链接数据库的工具类,执行sql的helper工具类,获取网站div图片保存到本地的工具类信息...

Global site tag (gtag.js) - Google Analytics