`

使用Jtidy将Html文件转换为xml文件的小例子

阅读更多

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;

import org.w3c.tidy.Tidy;
 
public class HtmlToXml
{
 public void tranceTo(String path,String encoding,String savePath){

        Tidy tidy = new Tidy();

        tidy.setXmlOut(true); 

        tidy.setQuoteNbsp(false);
        tidy.setQuoteMarks(false);
        tidy.setQuoteAmpersand(false);
        tidy.setInputEncoding(encoding);//Encoding为你的输入文件的编码方式
        tidy.setOutputEncoding("UTF-8");//设置输出文件的编码方式
        try
        {
            FileInputStream in = new FileInputStream(new File(path));
            FileOutputStream out = new FileOutputStream(new File(savePath+"temp.xml"));
            tidy.parse(in, out); 

        }
        catch (IOException e)
        {
            e.printStackTrace();
        }
 }
}

分享到:
评论

相关推荐

    JTidy配置手册,将Html页面转化为xml

    JTidy是一款开源的Java库,专门用于清理和格式化HTML文档,同时也支持将HTML转换为XML格式。这个工具对于处理不规范或者混乱的HTML代码尤其有用,它可以帮助开发者将不规则的HTML源码整理成符合W3C标准的XML文档,...

    html转换成xml使用的Jtidy类库

    html转换成xml使用的tidy类库,很好用也很简单,

    Jtidy 将HTML转化成XML

    利用Jtidy工具, 将HTML转化成XML,这里给出简单的转换方法。

    jsoup和jtidy 对html操作,将不规范的html转换为xhtml

    在这种情况下,jsoup和Jtidy这两个Java库就显得尤为重要,它们可以帮助我们将不规范的HTML转换为更标准的XHTML(可扩展超文本标记语言)。 首先,让我们深入了解jsoup。jsoup是一款强大的Java库,设计用于处理现实...

    jtidy-r938.zip

    《Java使用JTidy将HTML转换为XML的详解》 在信息技术领域,HTML(超文本标记语言)和XML(可扩展标记语言)是两种广泛使用的数据格式。HTML主要用于网页的结构化表示,而XML则强调数据的结构和语义。在某些场景下,...

    jtidy简单使用

    jtidy简单使用 java jtidy xml html

    jtidy_jar文件

    JTidy 是HTML Tidy (一个饭HTML语法检查器和优雅的打印编排工具)的Java移植,除了本身具有的清除HTML文件难看或错误内容的功能外,还提供了一个DOM接口,......

    jtidy-04aug2000r7-dev.zip_ jtidy-r938-sources_JTidy-lizi_jtidy _

    这个库的主要功能是对不规范的HTML进行清理和格式化,使其符合W3C的HTML和XHTML标准,并且能够将HTML转换为XML或XHTML格式。在"jtidy-04aug2000r7-dev.zip"这个压缩包中,包含了JTidy的一个开发版本,版本号为04aug...

    jtidy-r820

    JTidy是HTML Tidy(一个HTML语法检查器和优雅的打印编排工具)的Java移植,除了本身具有的清除HTML文件难看或错误内容的功能外,还提供了一个DOM接口,程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。

    jtidy-04aug2000r7-dev.zip

    3. **XML兼容性**:jtidy能将HTML转换为XHTML,使得原本非结构化的HTML具备了XML的结构化特性,方便进一步的XML处理。 4. **DOM操作**:jtidy提供了一套基于DOM(Document Object Model)的API,允许开发者通过Java...

    Java通过DOM+Jtidy结合Mysql实现基于本地的简单的搜索系统

    例如,可以预先将HTML文件转换为XML并建立索引,以便快速定位信息。 8. **错误处理与日志记录**: 为了保证系统的健壮性,需要对可能出现的错误进行处理,如文件读取错误、网络问题、数据库连接失败等。同时,记录...

    2jtidy-04aug2000r7-dev.zip_jti_jtidy _zip

    Jtidy在处理网页源码时,可以纠正许多常见的语法错误,如缺失的标签、不正确的嵌套等,并将其转换为有效的XML格式,这在处理从网络抓取的数据或者老旧的HTML文档时尤其有用。2jtidy-04aug2000r7-dev.zip中的这个版本...

    html文件解析器-源码

    HTML文件解析器是一种用于处理和理解HTML文档的软件工具,它能够将HTML代码转换成结构化的数据,便于进一步的分析、操作或展示。本解析器的源码简单易懂,适合初学者研究学习。 HTML(HyperText Markup Language)...

    java实现超大pdf文件转换word工具

    总结起来,使用Java实现超大PDF文件转换为Word或HTML,以及提取文字和图片,需要掌握以下关键技术点: 1. 选择合适的库,如Apache PDFBox、iText或Aspose.Words。 2. 理解PDF的内部结构,如文本对象、图像对象和...

    jtidy-r8-21122004.jar

    jtidy-r8-21122004.jar

    java把文档对象转为html

    - **JTidy**:JTidy是一个Java版本的Tidy,用于清理和格式化HTML或XML,可以在处理转换后的HTML时确保其结构正确。 2. **转换过程**: - **PDF转HTML**:使用PDFBox,首先读取PDF文件,然后遍历页面,提取文本和...

    jtidy sources jar包

    jtidy-r7-20052011.104500-sources.jar

    基于XML的web信息抽取系统

    这个系统主要利用HTML页面作为数据源,通过解析、转化和清理HTML内容,将其转换为XML格式,便于进一步的数据处理和分析。在该系统中,信息抽取(Information Extraction, IE)是核心部分,它涉及到网页内容的理解、...

    jtidy-r938.jar

    jtidy-r938.jar,需要调用的包,一些office的转换需要使用

    html2pdf代码.7z

    本篇将详细介绍如何利用Jtidy和wkhtmltopdf插件在Windows及Linux环境下将HTML转换为PDF。 Jtidy是一个强大的Java库,主要用于解析、清理和重构HTML或XML文档。它能够将不规范的HTML代码转化为符合W3C标准的XHTML,...

Global site tag (gtag.js) - Google Analytics