Jsoup解析HTML并下载图片

天极网络

浏览: 10023 次
性别:
来自: 朔州

最近访客更多访客>>

wangyy

123yxc

LoadingTerry

xiie

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

jsoup html java

package com.bettem.commons.core.util;

import cn.hutool.core.io.IoUtil;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.io.StringWriter;
import java.net.URL;
import java.net.URLConnection;

/**
 * JsoupUtil
 *
 * @author liguoliang
 * @date 2015年9月23日下午3:02:56
 */
public class JsoupUtil {
    /**
     * 获取HTML源码
     * liguoliang
     * 2015年9月23日下午3:02:56
     *
     * @param httpUrl 图片网络地址
     * @param encode  编码
     * @return String
     */
    public static String getHtmlCode(String httpUrl, String encode) {
        try {
            URL url = new URL(httpUrl);
            // //使用openStream得到一输入流并由此构造一个BufferedReader对象
            BufferedReader reader = IoUtil.getReader(url.openStream(), encode);
            StringWriter stringWriter = new StringWriter();
            IoUtil.copy(reader, stringWriter);
            return stringWriter.toString();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    /**
     * 获取HTML元素信息
     * liguoliang
     * 2015年9月23日下午3:03:09
     *
     * @param httpUrl  图片网络地址
     * @param filePath 图片保存路径
     */
    public static String getHtmlPicture(String httpUrl, String filePath) {
        FileOutputStream fos = null;
        String fileName;
        InputStream in = null;
        URL url;
        String imageUrl = null;
        try {
            File imageFile = new File(filePath);
            if (!imageFile.exists()) {
                imageFile.mkdirs();
            }
            Document doc = Jsoup.connect(httpUrl).get();
            //带src属性的元素
            Elements image = doc.select("[src]");
            for (Element src : image) {
                if ("img".equals(src.tagName())) {
                    imageUrl = src.attr("src");
                    System.out.println("图片地址：" + imageUrl);
                    File file = new File(imageUrl);
                    fileName = file.getName();
                    boolean b = (imageUrl.startsWith("http://") || imageUrl.startsWith("https://")) && fileName.contains(".");
                    if (b) {
                        url = new URL(imageUrl);
                        URLConnection connection = url.openConnection();
                        in = connection.getInputStream();
                        //删除相同文件名并重新下载
                        File[] files = imageFile.listFiles();
                        for (File file2 : files) {
                            if (file2.getName().equals(fileName)) {
                                file2.delete();
                            }
                        }
                        File targetFile = new File(filePath + fileName);
                        fos = new FileOutputStream(targetFile);
                        IoUtil.copy(in, fos);
                    }
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            IoUtil.close(in);
            IoUtil.close(fos);
        }
        return imageUrl;
    }

    /**
     * liguoliang
     * 2015年9月23日下午7:06:57
     *
     * @param filePath 保存地址
     * @param imageUrl 网络地址
     */
    public static void downImag(String filePath, String imageUrl) {
        String fileName = imageUrl.substring(imageUrl.lastIndexOf("/"));
        URL url;
        InputStream in = null;
        OutputStream os = null;
        try {
            File file = new File(filePath);
            if (!file.exists()) {
                file.mkdirs();
            }
            url = new URL(imageUrl);
            URLConnection connection = url.openConnection();
            in = connection.getInputStream();
            File targetPath = new File(filePath + fileName);
            os = new FileOutputStream(targetPath);
            IoUtil.copy(in, os);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            IoUtil.close(in);
            IoUtil.close(os);
        }
    }

    public static void main(String[] args) {
        String httpUrl = "http://www.netbian.com/";
        String encode = "gb2312";
//        String encode = "gbk";
//        String encode = "utf8";
        String filePath = "e:/phone/newfile/111/";
        String resource = getHtmlCode(httpUrl, encode);
        System.out.println(resource);
        //方式一：
        /*Document document = Jsoup.parse(resource);
        Elements element = document.getElementsByTag("img");
        for (Element element2 : element) {
            String imgUrl = element2.attr("src");
            File file = new File(imgUrl);
            if (!"".equals(imgUrl) && imgUrl.startsWith("http://") && file.getName().contains(".")) {
                System.out.println("正在批量下图片===========================");
                downImag(filePath, imgUrl);
                System.out.println("图片地址：" + imgUrl);
            }
        }*/
        //方式二：
        getHtmlPicture(httpUrl, filePath);
        httpUrl = "http://img.netbian.com/file/2020/0710/93b4f00e30f595a020b0e7dc09338154.jpg";
        filePath = "e:/phone/newfile";
        //图片下载
        downImag(filePath,httpUrl);
    }
}

分享到：

JsonUtil

2015-09-24 09:37
浏览 1091
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Jsoup解析HTML并下载图片

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Jsoup解析HTML并下载图片

评论

发表评论

相关推荐

最近访客更多访客>>