用Jsoup解析HTML文件，并保存到本地 - web开发 - ITeye博客

`

piperzero

浏览: 3614373 次
性别:
来自: 杭州

最近访客更多访客>>

handsome1234

u012363178

zhangketuan

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (3796)

社区版块

存档分类

最新评论

cning_cn：守护线程的方式是在线程对象创建之前用线程对象的setDa ...
Thread.setDaemon设置说明
qq250782929： [b][/b]
推荐两款富文本编辑器：NicEdit和Kindeditor
vickypig： js循环判断有错误。第一次批量加了几个，后面在单独加几个，有可 ...
新鲜出炉：基于HTML5的jquery文件上传插件（多文件选择、带进度条、完整可用）
黑山老鹞： ...
如何用Java操作MongoDB？
山川尽美： FileChannel inChannel = new Fil ...
JAVA功能代码《12》----使用NIO快速复制文件

用Jsoup解析HTML文件，并保存到本地

阅读更多

需要引入的Jsoup.jar包：jsoup.jar

推荐阅读的jsoup使用教程：使用JSOUP处理HTML文档

以下是实现Jsoup解析HTML文件，并保存到本地的Java代码：

/**
 * 这个文件实现了：将指定目录下的所有htm和html文件的<title>标签的值，替换成文件名（不含后缀）。
 */
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;


public class Rename {
	public static void main(String[] args) {
		// 默认文件夹路径
		String path = "C:\\report";
		if(args != null && args.length > 0){
			path = args[0];
		}
		try {
			renameHTMLTitle(path);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	public static void renameHTMLTitle(String dir) throws IOException {
		File f = new File(dir);
		if (f.isDirectory()) {
			File fs[] = f.listFiles();
			for (File s : fs) {
				String title = s.getName().replaceAll(".htm", "").replaceAll(".html", "");
				if(s.getName().contains(".htm") || s.getName().contains(".html")){
					Document doc = Jsoup.parse(s, "gb2312");
					Element titleEl = doc.select("title").first();
					titleEl.html(title);
					/*
					 * Jsoup只是解析，不能保存修改，所以要在这里保存修改。
					 */
					FileOutputStream fos = new FileOutputStream(s, false);
					OutputStreamWriter osw = new OutputStreamWriter(fos, "gb2312");
					osw.write(doc.html());
					osw.close();
				}
			}
		}
	}
}

分享到：

11级_Java_曹建波 10.29 Cookie会话管理 | 如何用Java操作MongoDB？

2012-10-29 17:25
浏览 1869
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

android使用jsoup 解析html文件: 接下来，我们将讨论如何在Android中使用`jsoup`解析HTML文件并替换内容。 1. **读取HTML文件** - 如果HTML文件存储在网络服务器上，你可以使用`HttpURLConnection`或`OkHttp`等网络库获取HTML内容。 - 如果HTML...

使用Jsoup，抓取整个网站(包括图片、js、css): 对于图片，我们使用`<img>`标签的`src`属性获取URL，然后使用Java的`HttpURLConnection`或第三方库如Apache HttpClient下载图片，保存到本地，并将`src`属性替换为本地路径。对于CSS和JavaScript，情况类似。`...

Jsoup+httpclient 模拟登陆和抓取: 6. 文件保存和写入： - 通过指定的文件路径和格式将解析后的HTML内容保存到本地文件。 - 使用FileUtil工具类来处理文件写入操作，包括文件创建和内容写入。 - 使用BufferedReader和BufferedWriter进行文件读写...

java 解析 chm 文件: 通过以上步骤，我们可以编写一个Java程序，读取CHM文件，解码其内容，解析HTML，生成新的HTML文件，并保存到本地。这个过程可能涉及到对CHM结构的理解、使用特定库的API，以及处理文件I/O和异常的技巧。对于需要处理...

Jsoup抓取整个网站: 在本篇中，我们将深入探讨如何使用Jsoup来抓取整个网站，并将其保存到本地，包括CSS、JavaScript、图片以及各个页面。首先，我们需要了解Jsoup的基本用法。Jsoup通过建立一个HTTP连接到目标网站，然后解析返回的...

jsoup爬虫demo: 以上代码会抓取指定网页的所有链接及其文本，并将结果保存到名为"output.txt"的本地文件中。每个链接和对应文本之间以两个空行分隔。 **jsoup的特点与优势** - **解析速度快**：jsoup使用高效的CSS选择器引擎，能...

SpringBoot+jsoup爬虫: - 将提取的数据保存到本地，可以是文本文件、数据库或者其他合适的形式。 5. **异常处理**：在爬取过程中，可能会遇到网络问题、404错误或其他异常，所以需要捕获并处理这些异常，确保程序的健壮性。 6. **优化和...

Jsoup抓取一个完整的网站.rar: 在这个"Jsoup抓取一个完整的网站.rar"压缩包中，你将找到一个示例项目，教你如何使用Jsoup配合Java来抓取一个网站的所有资源，包括图片、CSS样式表和JavaScript文件，并在本地按照原始网站的目录结构进行保存。...

jsoup 实现浏览器网页另存为: 在本文中，我们将深入探讨如何使用JSoup实现浏览器的“网页另存为”功能，即抓取网页内容并将其保存为本地HTML文件。 ### 一、JSoup简介 JSoup的核心功能包括HTML解析、元素选择和数据提取。其设计目标是让解析...

src.rar_DEMO_org.jsoup.Jsoup: 首先，通过Jsoup获取img标签的src属性，然后使用HTTP请求下载图片并保存到本地。 7. **错误处理和重试机制**：在实际应用中，考虑到网络问题，可能需要实现错误处理和重试机制，以应对网络延迟或失败的请求。 8. *...

jsoup java爬虫糗事搞笑图片百科: 我们可以使用jsoup解析HTML文件，提取出搞笑图片、文字等信息，甚至进一步分析和处理这些数据，如进行情感分析、内容过滤等。总的来说，这个项目涉及了使用jsoup进行网页抓取，结合Java爬虫技术从指定的网页抓取...

java使用Jsoup组件生成word文档: 这一步骤主要通过`Jsoup.parse(String html)`方法完成，该方法可以解析HTML字符串并返回一个`Document`对象。 ```java String htmlContent = "<html><body><p>Hello, World!</p></body></html>"; Document doc = ...

spring boot+java +jsoup+ 爬虫: 为了将这些图片保存到本地，Spring Boot可以提供文件系统存储或云存储的支持。例如，可以创建一个简单的REST API接口，接收图片的字节流，然后将其写入硬盘的指定目录，或者通过FTP、S3等服务上传到云端。同时，可以...

java实现读取html网页文件: 总结来说，Java通过I/O流可以轻松读取本地HTML文件，结合`Jsoup`库可以方便地处理HTML内容，最后使用JDBC将处理后的数据保存到数据库。这些都是Java开发中常用的技术，对于网络编程和数据处理非常实用。

我这里使用的Jsoup的jar包: 2. **解析HTML**：创建Jsoup的连接对象，通过`Jsoup.connect(url)`获取远程HTML，或者使用`Jsoup.parse(htmlString)`解析本地HTML字符串。 3. **选择元素**：使用CSS选择器，如`doc.select("selector")`，获取元素...

基于java爬取网络图片并且保存到本地: 这个项目“基于Java爬取网络图片并且保存到本地”旨在为初学者提供一个学习实践的机会，了解如何利用Java进行网页抓取和数据处理。首先，我们需要了解Java爬虫的基础。这通常涉及以下几个关键概念： 1. **HTTP...

解析百度网页另存为html文件: 在编程中，我们可以通过使用库（如Python的BeautifulSoup或Java的Jsoup）来解析HTML并保存为文件。 2. **百度网页内容解析**：百度网页内容解析涉及到网络爬虫技术，用于抓取和分析网页信息。这通常包括发送HTTP...

jsoup如何爬取图片到本地: 【知识点详解】 1. **Jsoup库介绍**：Jsoup是一个...以上就是关于使用Jsoup爬取并保存图片到本地的主要知识点，包括Jsoup的基本用法、网络请求、图片下载及Spring MVC的集成。希望对你理解和实现类似功能有所帮助。

jsoup从网络上抓取图片: 首先，你需要连接到目标网页，并解析HTML内容。以下是一个基本示例： ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.io.IOException; public class ImageScraper { public ...

ksoup,jsoup的kotlin包装器.zip: 6. **保存或发送数据**：处理完数据后，可以选择保存到本地、数据库，或者通过网络发送。 ### 开源项目的优势作为开源项目，KSoup有以下优点： 1. **社区支持**：开源意味着开发者可以从社区获得帮助，查看源码...

Global site tag (gtag.js) - Google Analytics