java解析HTML，并写入TXT - hospop - ITeye博客

`

花太香

浏览: 26148 次
性别:

最近访客更多访客>>

521冰521

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

java解析HTML，并写入TXT

博客分类：

Java

阅读更多

package foo;

import java.io.File;
import java.io.IOException;
import java.io.PrintStream;
import java.util.Iterator;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
/**
* 解析HTML，并写入到TXT。
* @author Administrator
*
*/
public class ReadHtml {

public static void main(String[] args) throws IOException {

//输出打印流

PrintStream ps = new PrintStream(new File("E:\\test\\result.txt"));

Document doc;

doc = Jsoup.parse(new File("E:\\test\\list.html") , "UTF-8");

//获取所有的<tr></tr>

List<Element> list = doc.select("tr");
Iterator<Element> iter = list.iterator();
String newName = null;
String oldName = "";
while (iter.hasNext()) {
Element ele = iter.next();
List<Element> tds = ele.select("td");
// 统一格式（即<tr>标签内都有5个<td></td>的才解析）

if (tds.size() == 5) {

//过滤掉某些内容

if ("撤销建制".equals(tds.get(2).text()) || "新建".equals(tds.get(2).text()) || "去筹新建".equals(tds.get(2).text())) {
continue;
}
List<Element> as = tds.get(3).select("td");
if (as.size() > 0) {
for (Element a : as) {
// 有多个学校名称合并的，以“,”分隔
oldName += a.text().replace(" ", ",") + ",";
}
} else {
oldName = tds.get(3).text();
}
if (oldName.endsWith(",")) {
oldName = oldName.substring(0, oldName.length() - 1);
}
newName = tds.get(1).text();
ps.println(newName + "," + oldName);
System.out.println(newName + "," + oldName);
}
oldName = "";
}
ps.close();
}

}

分享到：

struts2 单个文件上传 | struts.xml中的结果类型与视图

2013-11-12 09:42
浏览 376
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java 解析 chm 文件: Java解析CHM文件是将Microsoft的 Compiled HTML Help (CHM) 文件转换成HTML网页的过程。CHM文件是一种常见的帮助文档格式，它包含了多个HTML页面、图像和其他资源，并使用了一种特殊的压缩方法存储。在Java中处理CHM...

java实现将html文件读取到txt中: java实现的可以将html文件读入到txt文件中，经过测试的，可以用。

java解析DWG文件为json使用superMap: 【标题】：“java解析DWG文件为json使用superMap” 【描述】：“java使用superMap解析DWG文件为json输出，本地通过，附件中为word操方式按照步骤可以导入数据集” 【标签】：“java解析DWG文件json java读取dwg...

java实现HTML解析图片批量下载: 总之，通过使用Jsoup，我们可以轻松地解析HTML文档，找到所有的图片链接，并使用Java的网络和文件I/O功能将它们下载到本地。这个项目不仅可以作为学习Java网络编程和HTML解析的实践，还可以应用于各种实际场景，例如...

java实现 html转Excel: 1. **HTML解析**：使用Java库如Jsoup来解析HTML文件，提取需要的数据。Jsoup能够解析HTML文档，并提供一套强大的API来查找、遍历和修改DOM树。例如，你可以根据CSS选择器获取特定的表格元素。 2. **数据结构构建**...

java html转换word: 4. **解析HTML并添加到Word**：Apache POI没有内置的HTML解析器，所以你需要自己将HTML转换为XWPFDocument可以理解的结构。这通常涉及解析HTML，将其转化为段落（XWPFParagraph）、表格（XWPFTable）等元素，并设置...

java解析doc: Java解析DOC文档主要涉及到的是对Microsoft Word文件格式的处理，特别是旧版的DOC和较新的DOCX格式。在Java环境中，通常使用第三方库来实现这一功能，因为Java标准库并不直接支持读取或写入这些特定的文件格式。在...

java解析工具包: 本文将深入探讨四个流行的Java解析库：Fastjson、Dom4j、Jdom和Jsoup，它们各自具有独特的优势和适用场景。首先，Fastjson是阿里巴巴开源的一个高性能的JSON库。它提供了极简的API，使得在Java对象和JSON数据之间...

java 中根据html模板生成新的html: 然后在Java代码中配置FreeMarker并解析模板： ```java // 加载配置 Configuration cfg = new Configuration(Configuration.VERSION_2_3_30); cfg.setClassForTemplateLoading(this.getClass(), "/"); // 获取模板 ...

java解析pdf实例: Jsoup是一款强大的Java库，专门用于处理和解析HTML文档。它提供了DOM（文档对象模型）的API，使得开发者可以像操作DOM一样对网页进行选择、遍历和修改。在本实例中，jsoup可能被用来抓取网页上的PDF链接，以便后续...

Excel以HTML显示，java解析2007 excel: 总的来说，Java解析Excel 2007文件并在网页上以HTML显示，是一项实用的技能，广泛应用于数据分析、报表生成和Web应用。通过Apache POI等工具，开发者能够轻松地处理这些任务，提高工作效率，同时为用户提供更好的...

java XSL解析器: Java XSL解析器是Java平台上的一个关键工具，用于处理XML文档并将其转换为其他格式，如HTML、PDF或简单的文本。XSL（Extensible Stylesheet Language）是一种样式表语言，设计用来转换XML文档，而Java XSL解析器就是...

Java 解析http请求处理结果: 本主题将深入探讨如何使用Java解析HTTP请求处理结果，包括发送GET和POST请求、处理响应、解析网页内容以及应对常见问题。首先，Java中的HttpURLConnection是标准库中用于执行HTTP请求的核心类。我们可以使用它来...

JAVA用poi解析doc、docx、slx、xlsx,保证完整: 这个教程将详细介绍如何利用POI库来解析这些文件类型，并将它们转换为HTML格式。首先，我们需要理解Apache POI的工作原理。POI项目分为两个主要部分：HSSF（Horrible Spreadsheet Format）处理旧版的.xls文件，而...

java解析pdf框架pdfbox: - PDFReader和PDFWriter：用于读取和写入PDF文档。 3. 使用PDFBox解析PDF 要解析PDF文档，首先需要加载文档： ```java PDDocument document = PDDocument.load(new File("123.pdf")); ``` 然后可以使用...

java将mht转化为html: 本文将深入探讨如何使用Java将MHT（MHTML或Web档案单个文件）转换为HTML，并重点讲解代码实现过程中的关键技术点。 #### 一、MHT与HTML简介 1. **MHT (MHTML)**：是一种将网页的所有组成部分（如HTML代码、图片、...

java后台html 转excel: 在Java中，我们可以使用Jsoup库来解析HTML。Jsoup提供了方便的方法来选择和操作HTML元素，如选择特定的DOM节点、获取属性值等。例如，我们可以通过CSS选择器选取需要的数据，并提取出来。 2. 数据提取：从解析后...

java后台部署html页面代码.docx: TemplateUtils 工具类可以将模板文件读取并解析，生成实际的 HTML 文件。文件操作文件操作是 Java 后台部署 HTML 页面代码的重要组成部分。这里的文件操作包括创建文件、写入文件、读取文件和删除文件等。Java ...

java的html2word: 对于HTML到Word的转换，我们需要使用POI中的`HWPFDocument`类来创建和操作Word文档，并使用HTML解析库（如Jsoup或JTidy）来解析HTML内容。以下是一个简化的HTML转Word的基本流程： 1. **引入依赖**：首先，在项目...

Java解析Excel文件并把数据存入数据库: Java解析Excel文件并把数据存入数据库本篇文章主要介绍了Java解析Excel文件并把数据存入数据库的方法，涵盖了上传Excel文件、解析Excel文件、将数据存入数据库等多个方面的知识点。一、上传Excel文件在上传...

Global site tag (gtag.js) - Google Analytics