`
piperzero
  • 浏览: 3568818 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

用Jsoup解析HTML文件,并保存到本地

 
阅读更多

需要引入的Jsoup.jar包:jsoup.jar

推荐阅读的jsoup使用教程:使用JSOUP处理HTML文档


以下是实现Jsoup解析HTML文件,并保存到本地的Java代码:

/**
 * 这个文件实现了:将指定目录下的所有htm和html文件的<title>标签的值,替换成文件名(不含后缀)。
 */
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;


public class Rename {
	public static void main(String[] args) {
		// 默认文件夹路径
		String path = "C:\\report";
		if(args != null && args.length > 0){
			path = args[0];
		}
		try {
			renameHTMLTitle(path);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	public static void renameHTMLTitle(String dir) throws IOException {
		File f = new File(dir);
		if (f.isDirectory()) {
			File fs[] = f.listFiles();
			for (File s : fs) {
				String title = s.getName().replaceAll(".htm", "").replaceAll(".html", "");
				if(s.getName().contains(".htm") || s.getName().contains(".html")){
					Document doc = Jsoup.parse(s, "gb2312");
					Element titleEl = doc.select("title").first();
					titleEl.html(title);
					/*
					 * Jsoup只是解析,不能保存修改,所以要在这里保存修改。
					 */
					FileOutputStream fos = new FileOutputStream(s, false);
					OutputStreamWriter osw = new OutputStreamWriter(fos, "gb2312");
					osw.write(doc.html());
					osw.close();
				}
			}
		}
	}
}


分享到:
评论

相关推荐

    android使用jsoup 解析html文件

    接下来,我们将讨论如何在Android中使用`jsoup`解析HTML文件并替换内容。 1. **读取HTML文件** - 如果HTML文件存储在网络服务器上,你可以使用`HttpURLConnection`或`OkHttp`等网络库获取HTML内容。 - 如果HTML...

    使用Jsoup,抓取整个网站(包括图片、js、css)

    对于图片,我们使用`&lt;img&gt;`标签的`src`属性获取URL,然后使用Java的`HttpURLConnection`或第三方库如Apache HttpClient下载图片,保存到本地,并将`src`属性替换为本地路径。 对于CSS和JavaScript,情况类似。`...

    Jsoup+httpclient 模拟登陆和抓取

    6. 文件保存和写入: - 通过指定的文件路径和格式将解析后的HTML内容保存到本地文件。 - 使用FileUtil工具类来处理文件写入操作,包括文件创建和内容写入。 - 使用BufferedReader和BufferedWriter进行文件读写...

    java 解析 chm 文件

    通过以上步骤,我们可以编写一个Java程序,读取CHM文件,解码其内容,解析HTML,生成新的HTML文件,并保存到本地。这个过程可能涉及到对CHM结构的理解、使用特定库的API,以及处理文件I/O和异常的技巧。对于需要处理...

    jsoup爬虫demo

    以上代码会抓取指定网页的所有链接及其文本,并将结果保存到名为"output.txt"的本地文件中。每个链接和对应文本之间以两个空行分隔。 **jsoup的特点与优势** - **解析速度快**:jsoup使用高效的CSS选择器引擎,能...

    SpringBoot+jsoup爬虫

    - 将提取的数据保存到本地,可以是文本文件、数据库或者其他合适的形式。 5. **异常处理**:在爬取过程中,可能会遇到网络问题、404错误或其他异常,所以需要捕获并处理这些异常,确保程序的健壮性。 6. **优化和...

    Jsoup抓取整个网站

    在本篇中,我们将深入探讨如何使用Jsoup来抓取整个网站,并将其保存到本地,包括CSS、JavaScript、图片以及各个页面。 首先,我们需要了解Jsoup的基本用法。Jsoup通过建立一个HTTP连接到目标网站,然后解析返回的...

    Jsoup抓取一个完整的网站.rar

    在这个"Jsoup抓取一个完整的网站.rar"压缩包中,你将找到一个示例项目,教你如何使用Jsoup配合Java来抓取一个网站的所有资源,包括图片、CSS样式表和JavaScript文件,并在本地按照原始网站的目录结构进行保存。...

    jsoup 实现浏览器网页另存为

    在本文中,我们将深入探讨如何使用JSoup实现浏览器的“网页另存为”功能,即抓取网页内容并将其保存为本地HTML文件。 ### 一、JSoup简介 JSoup的核心功能包括HTML解析、元素选择和数据提取。其设计目标是让解析...

    src.rar_DEMO_org.jsoup.Jsoup

    首先,通过Jsoup获取img标签的src属性,然后使用HTTP请求下载图片并保存到本地。 7. **错误处理和重试机制**:在实际应用中,考虑到网络问题,可能需要实现错误处理和重试机制,以应对网络延迟或失败的请求。 8. *...

    jsoup java爬虫 糗事 搞笑图片 百科

    我们可以使用jsoup解析HTML文件,提取出搞笑图片、文字等信息,甚至进一步分析和处理这些数据,如进行情感分析、内容过滤等。 总的来说,这个项目涉及了使用jsoup进行网页抓取,结合Java爬虫技术从指定的网页抓取...

    spring boot+java +jsoup+ 爬虫

    为了将这些图片保存到本地,Spring Boot可以提供文件系统存储或云存储的支持。例如,可以创建一个简单的REST API接口,接收图片的字节流,然后将其写入硬盘的指定目录,或者通过FTP、S3等服务上传到云端。同时,可以...

    java实现读取html网页文件

    总结来说,Java通过I/O流可以轻松读取本地HTML文件,结合`Jsoup`库可以方便地处理HTML内容,最后使用JDBC将处理后的数据保存到数据库。这些都是Java开发中常用的技术,对于网络编程和数据处理非常实用。

    Java 保存HTML为图片

    - Java中,可以使用`Jsoup`库解析HTML内容,提取文本和元素信息。 - `Webkit`渲染引擎(如PhantomJS或Headless Chrome)可以将HTML渲染成实际的网页视图,但由于这些是外部进程,与Java集成可能较为复杂。 - 另一...

    我这里使用的Jsoup的jar包

    2. **解析HTML**:创建Jsoup的连接对象,通过`Jsoup.connect(url)`获取远程HTML,或者使用`Jsoup.parse(htmlString)`解析本地HTML字符串。 3. **选择元素**:使用CSS选择器,如`doc.select("selector")`,获取元素...

    基于java爬取网络图片并且保存到本地

    这个项目“基于Java爬取网络图片并且保存到本地”旨在为初学者提供一个学习实践的机会,了解如何利用Java进行网页抓取和数据处理。 首先,我们需要了解Java爬虫的基础。这通常涉及以下几个关键概念: 1. **HTTP...

    解析百度网页另存为html文件

    在编程中,我们可以通过使用库(如Python的BeautifulSoup或Java的Jsoup)来解析HTML并保存为文件。 2. **百度网页内容解析**: 百度网页内容解析涉及到网络爬虫技术,用于抓取和分析网页信息。这通常包括发送HTTP...

    jsoup如何爬取图片到本地

    【知识点详解】 1. **Jsoup库介绍**:Jsoup是一个...以上就是关于使用Jsoup爬取并保存图片到本地的主要知识点,包括Jsoup的基本用法、网络请求、图片下载及Spring MVC的集成。希望对你理解和实现类似功能有所帮助。

    jsoup从网络上抓取图片

    首先,你需要连接到目标网页,并解析HTML内容。以下是一个基本示例: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.io.IOException; public class ImageScraper { public ...

Global site tag (gtag.js) - Google Analytics