`

Java 修复HTML标签

    博客分类:
  • Java
阅读更多

开源的组件:http://sourceforge.net/projects/jtidy/

网站:http://jtidy.sourceforge.net/

 

可以自动修复HTML文本中的标签问题。

 

代码如下:

 

 

import java.io.StringReader;

 

import org.w3c.tidy.Tidy;

 

public class JtidyTest {

 

public static void main(String[] args) {

Tidy tidy = new Tidy(); // obtain a new Tidy instance

tidy.setXHTML(true); // set desired config options using tidy setters 

tidy.setInputEncoding("utf8");

tidy.setShowWarnings(false);

        tidy.setWraplen(1024);

        tidy.setSmartIndent(true);

        tidy.setQuiet(true);

        tidy.setPrintBodyOnly(true);

        tidy.setOutputEncoding("utf8");

StringReader  sr = new StringReader("<div>这是文本<div>");

tidy.parse(sr, System.out); // run tidy, providing an input and output stream

sr = new StringReader("<div><p>这是文本</div>");

tidy.parse(sr, System.out); 

}

}

 

输出内容如下:

 

 

<div>这是文本</div>

<div>

  <p>这是文本</p>

</div>


看到了吧,自动修复了没有闭合的标签
分享到:
评论

相关推荐

    java代码-格式化html标签示例

    在Java编程中,格式化HTML标签是常见的任务,特别是在处理用户输入或从数据库中提取HTML内容时。HTML格式化能够使代码更易于阅读和维护,防止由于格式混乱导致的潜在错误。以下是一些关于如何在Java中进行HTML格式化...

    JAVA的HTML在线编辑器

    - 自动完成:输入HTML标签时,编辑器会自动提示可选的标签、属性和值,提高编码效率。 - 错误检查:检查HTML语法错误,帮助用户快速定位并修复问题。 - 保存和分享:用户可以保存自己的项目,或者生成一个链接来...

    java对html文件的处理

    Jsoup也可以帮助我们完成这一过程,因为它会自动修复不完整的HTML标签,并提供`outputSettings()`方法来配置输出格式,使其符合XML标准: ```java doc.outputSettings(new Document.OutputSettings().prettyPrint...

    jsoup和jtidy 对html操作,将不规范的html转换为xhtml

    它能自动修复一些常见的HTML错误,例如未闭合的标签。此外,jsoup还支持CSS选择器,使得查找和操作HTML元素变得极其简单。例如,你可以轻松地获取某个类名下的所有元素,或者通过ID找到特定的元素进行修改。 接下来...

    java解析html工具htmlparser的jar包及api文档

    通过API文档,开发者可以了解如何初始化解析器,如何遍历HTML元素,以及如何处理各种HTML标签。例如,HTMLParser库可能会提供如`HTMLDocument`和`HTMLElement`这样的类,用于代表整个文档和文档中的单个元素。`...

    JAVA 实时运行环境插件

    这个版本是Java 8的更新251,包含了对Java平台的修复和性能优化。 在Applet的使用中,"applet.html"文件是HTML文档,用于嵌入并加载Applet到网页中。HTML代码中会有`&lt;applet&gt;`标签,该标签指定了Applet的类名以及...

    基于Java的源码-html 标记大全.zip

    【标签】"java 软件/插件 html" 进一步确认了这个压缩包与Java编程和HTML处理有关。"java"标签表明了这是与Java语言相关的技术,"软件/插件"可能意味着这是一个可以集成到其他Java应用中的组件,或者是作为一个独立...

    Notepad++(java、html、json)格式化插件

    Tidy2插件可以整理嵌套的标签,添加缺失的结束标签,调整缩进,并修复其他语法错误,使HTML和XML文档更易于阅读和维护。 2. **NppAStyle.dll**:这个插件是Notepad++对Artistic Style (AStyle)的集成,AStyle是一个...

    Fckeditor2.3-java

    在Fckeditor2.3-java中,针对图片上传功能的修复可能包括以下方面: 1. **服务器兼容性**:修复了在ASP、PHP和JSP服务器环境下可能出现的图片上传失败的问题,确保无论使用哪种后端技术,图片上传功能都能正常工作。...

    Java parse HTML to XHTML

    请注意,虽然NekoHTML能够处理不规则的HTML,但它可能无法修复所有错误,特别是那些涉及到复杂的嵌套和结构混乱的情况。在实际应用中,可能需要结合其他工具或库,如JSoup,来提高转换的准确性和完整性。 在这个名...

    html标签过滤标签jar包

    在Web开发中,尤其是使用Java和JSP时,为了确保用户输入的数据安全并防止恶意代码注入,开发者通常会使用特定的库来过滤或转义HTML标签。"html标签过滤标签jar包"是一个这样的库,它提供了一种便捷的方式,允许在JSP...

    字符替换器 查找 替换 源码 .net java html等

    标签中的“.net”、“java”和“html”是三种常见的编程语言,这表明该字符替换器可能具有对这些语言的特殊支持,比如理解语言的语法结构,避免在替换过程中破坏代码的逻辑。例如,在HTML中,替换可能需要避开在标签...

    基于java的Eclipse的HTML格式化插件 Eclipse Tidy.zip

    - 修复HTML错误:Tidy库能够识别并修复常见的HTML语法错误,比如未闭合的标签、无效的属性等。 - 遵循W3C标准:插件可以检查代码是否符合HTML和XHTML标准,帮助开发者编写更规范的代码。 - 支持自定义设置:用户可以...

    基于java的HTML解析器 jsoup.zip

    jsoup还提供了HTML清理功能,可以去除无效的标签、修复嵌套错误、标准化属性等,确保解析后的HTML结构正确且安全。 8. **连接操作** `Connection`对象还可以配置请求头、POST数据、超时时间等,并能获取响应码、...

    Java嵌入谷歌内核简单浏览器跨平台

    标签"内嵌浏览器"表明这个项目专注于提供一个内部集成的浏览器组件,"java"表示它是基于Java语言实现的,"jxbrowser"则是该项目的核心库名,专门用于Java平台的内嵌式浏览器解决方案。 在压缩包子文件的文件名称...

    Java中解析html的开源项目02

    与Java内置的DOM解析器相比,HTMLParser更专注于处理HTML的不规则性和灵活性,它能够很好地处理HTML标签的嵌套、缺失闭合标签等问题,这是许多网页中存在的实际情况。 HTMLParser的使用流程通常包括以下几个步骤: ...

    java社区医院挂号系统Java实用源码整理learns

    【标签】"java"表明这个系统完全基于Java开发,体现了Java在构建大型、复杂系统方面的广泛适用性。 【压缩包子文件的文件名称列表】中,`jsymxx295.zip`可能是系统的主要源代码包,包含Java源文件和其他资源;`下载...

    java web课程设计

    4. **JSTL与EL表达式**:JSTL(JavaServer Pages Standard Tag Library)是一组用于JSP页面的标签库,可以简化页面逻辑,提高可读性。EL(Expression Language)是用于获取和设置JavaBean属性的简洁语法,通常与JSTL...

    java博客社区系统

    在导入项目后,开发者可以利用这些IDE的特性进行代码管理和调试,快速定位并修复问题,提高开发效率。 此外,【数据库文件】的提及意味着这个博客社区系统包含了数据存储和管理的模块。很可能使用的是关系型数据库...

    用java写的一个简单web浏览器

    开发者可能使用了Java的Swing或JavaFX库来构建用户界面,这两个库提供了丰富的组件,如按钮、文本框、标签等,用于创建图形用户界面(GUI)。 1. **Swing或JavaFX**: 这两个库提供了用于创建窗口和控件的类,如...

Global site tag (gtag.js) - Google Analytics