`
花太香
  • 浏览: 25025 次
  • 性别: Icon_minigender_1
最近访客 更多访客>>
社区版块
存档分类
最新评论

java解析HTML,并写入TXT

    博客分类:
  • Java
阅读更多

package foo;


import java.io.File;
import java.io.IOException;
import java.io.PrintStream;
import java.util.Iterator;
import java.util.List;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
/**
* 解析HTML,并写入到TXT。
* @author Administrator
*
*/
public class ReadHtml {

public static void main(String[] args) throws IOException {

//输出打印流

PrintStream ps = new PrintStream(new File("E:\\test\\result.txt"));

Document doc;

doc = Jsoup.parse(new File("E:\\test\\list.html") , "UTF-8");

//获取所有的<tr></tr>

List<Element> list = doc.select("tr");
Iterator<Element> iter = list.iterator();
String newName = null;
String oldName = "";
while (iter.hasNext()) {
Element ele = iter.next();
List<Element> tds = ele.select("td");
// 统一格式(即<tr>标签内都有5个<td></td>的才解析)

if (tds.size() == 5) {

//过滤掉某些内容

if ("撤销建制".equals(tds.get(2).text()) || "新建".equals(tds.get(2).text()) || "去筹新建".equals(tds.get(2).text())) {
continue;
}
List<Element> as = tds.get(3).select("td");
if (as.size() > 0) {
for (Element a : as) {
// 有多个学校名称合并的,以“,”分隔
oldName += a.text().replace(" ", ",") + ",";
}
} else {
oldName = tds.get(3).text();
}
if (oldName.endsWith(",")) {
oldName = oldName.substring(0, oldName.length() - 1);
}
newName = tds.get(1).text();
ps.println(newName + "," + oldName);
System.out.println(newName + "," + oldName);
}
oldName = "";
}
ps.close();
}


}

分享到:
评论

相关推荐

    java 解析 chm 文件

    Java解析CHM文件是将Microsoft的 Compiled HTML Help (CHM) 文件转换成HTML网页的过程。CHM文件是一种常见的帮助文档格式,它包含了多个HTML页面、图像和其他资源,并使用了一种特殊的压缩方法存储。在Java中处理CHM...

    java实现将html文件读取到txt中

    java实现的可以将html文件读入到txt文件中,经过测试的,可以用。

    java解析DWG文件为json使用superMap

    【标题】:“java解析DWG文件为json使用superMap” 【描述】:“java使用superMap解析DWG文件为json输出,本地通过,附件中为word操方式按照步骤可以导入数据集” 【标签】:“java解析DWG文件json java读取dwg...

    java实现HTML解析图片批量下载

    总之,通过使用Jsoup,我们可以轻松地解析HTML文档,找到所有的图片链接,并使用Java的网络和文件I/O功能将它们下载到本地。这个项目不仅可以作为学习Java网络编程和HTML解析的实践,还可以应用于各种实际场景,例如...

    java实现 html转Excel

    1. **HTML解析**:使用Java库如Jsoup来解析HTML文件,提取需要的数据。Jsoup能够解析HTML文档,并提供一套强大的API来查找、遍历和修改DOM树。例如,你可以根据CSS选择器获取特定的表格元素。 2. **数据结构构建**...

    java html转换word

    4. **解析HTML并添加到Word**:Apache POI没有内置的HTML解析器,所以你需要自己将HTML转换为XWPFDocument可以理解的结构。这通常涉及解析HTML,将其转化为段落(XWPFParagraph)、表格(XWPFTable)等元素,并设置...

    java解析doc

    Java解析DOC文档主要涉及到的是对Microsoft Word文件格式的处理,特别是旧版的DOC和较新的DOCX格式。在Java环境中,通常使用第三方库来实现这一功能,因为Java标准库并不直接支持读取或写入这些特定的文件格式。在...

    java解析工具包

    本文将深入探讨四个流行的Java解析库:Fastjson、Dom4j、Jdom和Jsoup,它们各自具有独特的优势和适用场景。 首先,Fastjson是阿里巴巴开源的一个高性能的JSON库。它提供了极简的API,使得在Java对象和JSON数据之间...

    java 中根据html模板生成新的html

    然后在Java代码中配置FreeMarker并解析模板: ```java // 加载配置 Configuration cfg = new Configuration(Configuration.VERSION_2_3_30); cfg.setClassForTemplateLoading(this.getClass(), "/"); // 获取模板 ...

    java解析pdf实例

    Jsoup是一款强大的Java库,专门用于处理和解析HTML文档。它提供了DOM(文档对象模型)的API,使得开发者可以像操作DOM一样对网页进行选择、遍历和修改。在本实例中,jsoup可能被用来抓取网页上的PDF链接,以便后续...

    java XSL解析器

    Java XSL解析器是Java平台上的一个关键工具,用于处理XML文档并将其转换为其他格式,如HTML、PDF或简单的文本。XSL(Extensible Stylesheet Language)是一种样式表语言,设计用来转换XML文档,而Java XSL解析器就是...

    Excel以HTML显示,java解析2007 excel

    总的来说,Java解析Excel 2007文件并在网页上以HTML显示,是一项实用的技能,广泛应用于数据分析、报表生成和Web应用。通过Apache POI等工具,开发者能够轻松地处理这些任务,提高工作效率,同时为用户提供更好的...

    Java 解析http请求处理结果

    本主题将深入探讨如何使用Java解析HTTP请求处理结果,包括发送GET和POST请求、处理响应、解析网页内容以及应对常见问题。 首先,Java中的HttpURLConnection是标准库中用于执行HTTP请求的核心类。我们可以使用它来...

    JAVA用poi解析doc、docx、slx、xlsx,保证完整

    这个教程将详细介绍如何利用POI库来解析这些文件类型,并将它们转换为HTML格式。 首先,我们需要理解Apache POI的工作原理。POI项目分为两个主要部分:HSSF(Horrible Spreadsheet Format)处理旧版的.xls文件,而...

    java解析pdf框架pdfbox

    - PDFReader和PDFWriter:用于读取和写入PDF文档。 3. 使用PDFBox解析PDF 要解析PDF文档,首先需要加载文档: ```java PDDocument document = PDDocument.load(new File("123.pdf")); ``` 然后可以使用...

    java将mht转化为html

    本文将深入探讨如何使用Java将MHT(MHTML或Web档案单个文件)转换为HTML,并重点讲解代码实现过程中的关键技术点。 #### 一、MHT与HTML简介 1. **MHT (MHTML)**:是一种将网页的所有组成部分(如HTML代码、图片、...

    java后台html 转excel

    在Java中,我们可以使用Jsoup库来解析HTML。Jsoup提供了方便的方法来选择和操作HTML元素,如选择特定的DOM节点、获取属性值等。例如,我们可以通过CSS选择器选取需要的数据,并提取出来。 2. 数据提取: 从解析后...

    java后台部署html页面代码.docx

    TemplateUtils 工具类可以将模板文件读取并解析,生成实际的 HTML 文件。 文件操作 文件操作是 Java 后台部署 HTML 页面代码的重要组成部分。这里的文件操作包括创建文件、写入文件、读取文件和删除文件等。Java ...

    java的html2word

    对于HTML到Word的转换,我们需要使用POI中的`HWPFDocument`类来创建和操作Word文档,并使用HTML解析库(如Jsoup或JTidy)来解析HTML内容。 以下是一个简化的HTML转Word的基本流程: 1. **引入依赖**:首先,在项目...

    htmlparser_Java网页解析器

    HTMLParser提供了强大的解析能力,可以解析HTML文档并将其转化为结构化的数据。它能够处理不规则的HTML代码,支持XML和HTML5标准,并提供多种解析模式,包括事件驱动、DOM模型和SAX解析。通过这些模式,开发者可以...

Global site tag (gtag.js) - Google Analytics