Jsoup爬虫

zysnba

浏览: 189269 次
性别:
来自: 北京

最近访客更多访客>>

xckouy

u011797980

cser245086272

jinliang0324

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Jsoup

加入jar //jsoup
    implementation 'org.jsoup:jsoup:1.10.2'

代码为下面：

package com.zys.es.demo762.utils;

import com.zys.es.demo762.entity.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

public class JsoupUtil {

    public static List<Content> getContent(String keyword){
        //地址京东为例
        String url="https://search.jd.com/Search?keyword="+keyword;
        List<Content> list= new ArrayList<>();
        try {
            //解析
            Document document = Jsoup.parse(new URL(url), 3000);
            //所有js的方法，这里都有
            Element element = document.getElementById("J_goodsList");
            //获取所有li元素
            Elements lis=element.getElementsByTag("li");
            for (Element li : lis) {
                String img= li.getElementsByTag("img").eq(0).attr("src");
//              String img= li.getElementsByTag("img").eq(0).attr("source-data-lazy-img");
                String price=li.getElementsByClass("p-price").eq(0).text();
                String title =li.getElementsByClass("p-name").eq(0).text();
                Content content = new Content();
                content.setImg(img);
                content.setPrice(price);
                content.setTitle(title);
                list.add(content);
//                System.out.println("------------------");
//                System.out.println(img);
//                System.out.println(price);
//                System.out.println(title);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

     return list;
    }

    public static void main(String[] args) throws Exception{

        List<Content> list= getContent("java");
        System.out.println(list);

    }

}

分享到：