需要引入的Jsoup.jar包:jsoup.jar
推荐阅读的jsoup使用教程:使用JSOUP处理HTML文档
以下是实现Jsoup解析HTML文件,并保存到本地的Java代码:
/**
* 这个文件实现了:将指定目录下的所有htm和html文件的<title>标签的值,替换成文件名(不含后缀)。
*/
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class Rename {
public static void main(String[] args) {
// 默认文件夹路径
String path = "C:\\report";
if(args != null && args.length > 0){
path = args[0];
}
try {
renameHTMLTitle(path);
} catch (IOException e) {
e.printStackTrace();
}
}
public static void renameHTMLTitle(String dir) throws IOException {
File f = new File(dir);
if (f.isDirectory()) {
File fs[] = f.listFiles();
for (File s : fs) {
String title = s.getName().replaceAll(".htm", "").replaceAll(".html", "");
if(s.getName().contains(".htm") || s.getName().contains(".html")){
Document doc = Jsoup.parse(s, "gb2312");
Element titleEl = doc.select("title").first();
titleEl.html(title);
/*
* Jsoup只是解析,不能保存修改,所以要在这里保存修改。
*/
FileOutputStream fos = new FileOutputStream(s, false);
OutputStreamWriter osw = new OutputStreamWriter(fos, "gb2312");
osw.write(doc.html());
osw.close();
}
}
}
}
}
分享到:
相关推荐
接下来,我们将讨论如何在Android中使用`jsoup`解析HTML文件并替换内容。 1. **读取HTML文件** - 如果HTML文件存储在网络服务器上,你可以使用`HttpURLConnection`或`OkHttp`等网络库获取HTML内容。 - 如果HTML...
对于图片,我们使用`<img>`标签的`src`属性获取URL,然后使用Java的`HttpURLConnection`或第三方库如Apache HttpClient下载图片,保存到本地,并将`src`属性替换为本地路径。 对于CSS和JavaScript,情况类似。`...
6. 文件保存和写入: - 通过指定的文件路径和格式将解析后的HTML内容保存到本地文件。 - 使用FileUtil工具类来处理文件写入操作,包括文件创建和内容写入。 - 使用BufferedReader和BufferedWriter进行文件读写...
通过以上步骤,我们可以编写一个Java程序,读取CHM文件,解码其内容,解析HTML,生成新的HTML文件,并保存到本地。这个过程可能涉及到对CHM结构的理解、使用特定库的API,以及处理文件I/O和异常的技巧。对于需要处理...
以上代码会抓取指定网页的所有链接及其文本,并将结果保存到名为"output.txt"的本地文件中。每个链接和对应文本之间以两个空行分隔。 **jsoup的特点与优势** - **解析速度快**:jsoup使用高效的CSS选择器引擎,能...
- 将提取的数据保存到本地,可以是文本文件、数据库或者其他合适的形式。 5. **异常处理**:在爬取过程中,可能会遇到网络问题、404错误或其他异常,所以需要捕获并处理这些异常,确保程序的健壮性。 6. **优化和...
在本篇中,我们将深入探讨如何使用Jsoup来抓取整个网站,并将其保存到本地,包括CSS、JavaScript、图片以及各个页面。 首先,我们需要了解Jsoup的基本用法。Jsoup通过建立一个HTTP连接到目标网站,然后解析返回的...
在这个"Jsoup抓取一个完整的网站.rar"压缩包中,你将找到一个示例项目,教你如何使用Jsoup配合Java来抓取一个网站的所有资源,包括图片、CSS样式表和JavaScript文件,并在本地按照原始网站的目录结构进行保存。...
在本文中,我们将深入探讨如何使用JSoup实现浏览器的“网页另存为”功能,即抓取网页内容并将其保存为本地HTML文件。 ### 一、JSoup简介 JSoup的核心功能包括HTML解析、元素选择和数据提取。其设计目标是让解析...
首先,通过Jsoup获取img标签的src属性,然后使用HTTP请求下载图片并保存到本地。 7. **错误处理和重试机制**:在实际应用中,考虑到网络问题,可能需要实现错误处理和重试机制,以应对网络延迟或失败的请求。 8. *...
我们可以使用jsoup解析HTML文件,提取出搞笑图片、文字等信息,甚至进一步分析和处理这些数据,如进行情感分析、内容过滤等。 总的来说,这个项目涉及了使用jsoup进行网页抓取,结合Java爬虫技术从指定的网页抓取...
为了将这些图片保存到本地,Spring Boot可以提供文件系统存储或云存储的支持。例如,可以创建一个简单的REST API接口,接收图片的字节流,然后将其写入硬盘的指定目录,或者通过FTP、S3等服务上传到云端。同时,可以...
总结来说,Java通过I/O流可以轻松读取本地HTML文件,结合`Jsoup`库可以方便地处理HTML内容,最后使用JDBC将处理后的数据保存到数据库。这些都是Java开发中常用的技术,对于网络编程和数据处理非常实用。
- Java中,可以使用`Jsoup`库解析HTML内容,提取文本和元素信息。 - `Webkit`渲染引擎(如PhantomJS或Headless Chrome)可以将HTML渲染成实际的网页视图,但由于这些是外部进程,与Java集成可能较为复杂。 - 另一...
2. **解析HTML**:创建Jsoup的连接对象,通过`Jsoup.connect(url)`获取远程HTML,或者使用`Jsoup.parse(htmlString)`解析本地HTML字符串。 3. **选择元素**:使用CSS选择器,如`doc.select("selector")`,获取元素...
这个项目“基于Java爬取网络图片并且保存到本地”旨在为初学者提供一个学习实践的机会,了解如何利用Java进行网页抓取和数据处理。 首先,我们需要了解Java爬虫的基础。这通常涉及以下几个关键概念: 1. **HTTP...
在编程中,我们可以通过使用库(如Python的BeautifulSoup或Java的Jsoup)来解析HTML并保存为文件。 2. **百度网页内容解析**: 百度网页内容解析涉及到网络爬虫技术,用于抓取和分析网页信息。这通常包括发送HTTP...
【知识点详解】 1. **Jsoup库介绍**:Jsoup是一个...以上就是关于使用Jsoup爬取并保存图片到本地的主要知识点,包括Jsoup的基本用法、网络请求、图片下载及Spring MVC的集成。希望对你理解和实现类似功能有所帮助。
首先,你需要连接到目标网页,并解析HTML内容。以下是一个基本示例: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.io.IOException; public class ImageScraper { public ...