package foo;
import java.io.File;
import java.io.IOException;
import java.io.PrintStream;
import java.util.Iterator;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
/**
* 解析HTML,并写入到TXT。
* @author Administrator
*
*/
public class ReadHtml {
public static void main(String[] args) throws IOException {
//输出打印流
PrintStream ps = new PrintStream(new File("E:\\test\\result.txt"));
Document doc;
doc = Jsoup.parse(new File("E:\\test\\list.html") , "UTF-8");
//获取所有的<tr></tr>
List<Element> list = doc.select("tr");
Iterator<Element> iter = list.iterator();
String newName = null;
String oldName = "";
while (iter.hasNext()) {
Element ele = iter.next();
List<Element> tds = ele.select("td");
// 统一格式(即<tr>标签内都有5个<td></td>的才解析)
if (tds.size() == 5) {
//过滤掉某些内容
if ("撤销建制".equals(tds.get(2).text()) || "新建".equals(tds.get(2).text()) || "去筹新建".equals(tds.get(2).text())) {
continue;
}
List<Element> as = tds.get(3).select("td");
if (as.size() > 0) {
for (Element a : as) {
// 有多个学校名称合并的,以“,”分隔
oldName += a.text().replace(" ", ",") + ",";
}
} else {
oldName = tds.get(3).text();
}
if (oldName.endsWith(",")) {
oldName = oldName.substring(0, oldName.length() - 1);
}
newName = tds.get(1).text();
ps.println(newName + "," + oldName);
System.out.println(newName + "," + oldName);
}
oldName = "";
}
ps.close();
}
}
相关推荐
Java解析CHM文件是将Microsoft的 Compiled HTML Help (CHM) 文件转换成HTML网页的过程。CHM文件是一种常见的帮助文档格式,它包含了多个HTML页面、图像和其他资源,并使用了一种特殊的压缩方法存储。在Java中处理CHM...
java实现的可以将html文件读入到txt文件中,经过测试的,可以用。
【标题】:“java解析DWG文件为json使用superMap” 【描述】:“java使用superMap解析DWG文件为json输出,本地通过,附件中为word操方式按照步骤可以导入数据集” 【标签】:“java解析DWG文件json java读取dwg...
总之,通过使用Jsoup,我们可以轻松地解析HTML文档,找到所有的图片链接,并使用Java的网络和文件I/O功能将它们下载到本地。这个项目不仅可以作为学习Java网络编程和HTML解析的实践,还可以应用于各种实际场景,例如...
1. **HTML解析**:使用Java库如Jsoup来解析HTML文件,提取需要的数据。Jsoup能够解析HTML文档,并提供一套强大的API来查找、遍历和修改DOM树。例如,你可以根据CSS选择器获取特定的表格元素。 2. **数据结构构建**...
4. **解析HTML并添加到Word**:Apache POI没有内置的HTML解析器,所以你需要自己将HTML转换为XWPFDocument可以理解的结构。这通常涉及解析HTML,将其转化为段落(XWPFParagraph)、表格(XWPFTable)等元素,并设置...
Java解析DOC文档主要涉及到的是对Microsoft Word文件格式的处理,特别是旧版的DOC和较新的DOCX格式。在Java环境中,通常使用第三方库来实现这一功能,因为Java标准库并不直接支持读取或写入这些特定的文件格式。在...
本文将深入探讨四个流行的Java解析库:Fastjson、Dom4j、Jdom和Jsoup,它们各自具有独特的优势和适用场景。 首先,Fastjson是阿里巴巴开源的一个高性能的JSON库。它提供了极简的API,使得在Java对象和JSON数据之间...
然后在Java代码中配置FreeMarker并解析模板: ```java // 加载配置 Configuration cfg = new Configuration(Configuration.VERSION_2_3_30); cfg.setClassForTemplateLoading(this.getClass(), "/"); // 获取模板 ...
Jsoup是一款强大的Java库,专门用于处理和解析HTML文档。它提供了DOM(文档对象模型)的API,使得开发者可以像操作DOM一样对网页进行选择、遍历和修改。在本实例中,jsoup可能被用来抓取网页上的PDF链接,以便后续...
总的来说,Java解析Excel 2007文件并在网页上以HTML显示,是一项实用的技能,广泛应用于数据分析、报表生成和Web应用。通过Apache POI等工具,开发者能够轻松地处理这些任务,提高工作效率,同时为用户提供更好的...
Java XSL解析器是Java平台上的一个关键工具,用于处理XML文档并将其转换为其他格式,如HTML、PDF或简单的文本。XSL(Extensible Stylesheet Language)是一种样式表语言,设计用来转换XML文档,而Java XSL解析器就是...
本主题将深入探讨如何使用Java解析HTTP请求处理结果,包括发送GET和POST请求、处理响应、解析网页内容以及应对常见问题。 首先,Java中的HttpURLConnection是标准库中用于执行HTTP请求的核心类。我们可以使用它来...
这个教程将详细介绍如何利用POI库来解析这些文件类型,并将它们转换为HTML格式。 首先,我们需要理解Apache POI的工作原理。POI项目分为两个主要部分:HSSF(Horrible Spreadsheet Format)处理旧版的.xls文件,而...
- PDFReader和PDFWriter:用于读取和写入PDF文档。 3. 使用PDFBox解析PDF 要解析PDF文档,首先需要加载文档: ```java PDDocument document = PDDocument.load(new File("123.pdf")); ``` 然后可以使用...
本文将深入探讨如何使用Java将MHT(MHTML或Web档案单个文件)转换为HTML,并重点讲解代码实现过程中的关键技术点。 #### 一、MHT与HTML简介 1. **MHT (MHTML)**:是一种将网页的所有组成部分(如HTML代码、图片、...
在Java中,我们可以使用Jsoup库来解析HTML。Jsoup提供了方便的方法来选择和操作HTML元素,如选择特定的DOM节点、获取属性值等。例如,我们可以通过CSS选择器选取需要的数据,并提取出来。 2. 数据提取: 从解析后...
TemplateUtils 工具类可以将模板文件读取并解析,生成实际的 HTML 文件。 文件操作 文件操作是 Java 后台部署 HTML 页面代码的重要组成部分。这里的文件操作包括创建文件、写入文件、读取文件和删除文件等。Java ...
对于HTML到Word的转换,我们需要使用POI中的`HWPFDocument`类来创建和操作Word文档,并使用HTML解析库(如Jsoup或JTidy)来解析HTML内容。 以下是一个简化的HTML转Word的基本流程: 1. **引入依赖**:首先,在项目...
在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页,同时确保图片和公式等复杂元素能够正确显示。 首先,你需要在你的Java项目中引入Apache POI库。可以通过Maven或Gradle来添加...