`
Sayler
  • 浏览: 14258 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Tidy

阅读更多

自己写的一个程序需要从网页抓取数据,思路是将网页转换成XML 文件,然后用调用java读xml的方法解析内容。

问题是网页通常都写的不规范,不能转成标准xml。

Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。
通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容抽取出来。

http://sourceforge.net/projects/jtidy/

例子:
 public static Document genDocFromUrl(String urlAddress) throws Exception{
  // 设置 tidy ,准备转换
  Tidy tidy = new Tidy();
  tidy.setXmlOut(true); // 输出格式 xml
  tidy.setDropFontTags(true); // 删除字体节点
  tidy.setDropEmptyParas(true); // 删除空段落
  tidy.setFixComments(true); // 修复注释
  tidy.setFixBackslash(true); // 修复反斜杆
  tidy.setMakeClean(true); // 删除混乱的表示
  tidy.setQuoteNbsp(false); // 将空格输出为  
  tidy.setQuoteMarks(false); // 将双引号输出为 "
  tidy.setQuoteAmpersand(true); // 将 & 输出为 &
  tidy.setShowWarnings(false); // 不显示警告信息

  
  URL url = new URL(urlAddress);
  URLConnection uc = url.openConnection(); // 建立连接
  Document doc = tidy.parseDOM( uc.getInputStream() ,null ); // 通过 JTidy 将 HTML 网页解析为

  return doc;
 }

 

分享到:
评论

相关推荐

    Tidy2.dll安装

    在本教程中,我们将深入探讨如何正确安装和使用Tidy2.dll。 首先,我们需要了解Notepad++。Notepad++是一款免费且开源的文本编辑器,尤其受到程序员的喜爱,因为它支持多种编程语言,并提供了语法高亮、代码折叠等...

    Notepad++ 插件tidy2,格式化HTML,64位

    2. 转到“ Plugins -> Tidy2 -> Tidy Document ”,这会弹出一个配置对话框。 3. 在这里,你可以根据需要调整各种选项,如是否删除空格、转换为XHTML、修复HTML错误等。 4. 点击“OK”或“Run”按钮,Tidy2插件就会...

    Tidy2 for Notepad ++ 64位

    4. 如果需要自定义格式化规则,可以在“Plugins”菜单下选择“Tidy2 Config”(Tidy2配置),在这里可以设置缩进方式(空格或制表符)、缩进宽度、是否自动关闭标签等参数。 通过以上步骤,你就能在Notepad++ 64位...

    免费 Tidy2 for Notepad++ 64位

    在标题中提到的“免费 Tidy2 for Notepad++ 64位”,意味着这个资源是专为64位版本的Notepad++设计的,确保了与最新版Notepad++的兼容性,让64位系统的用户也能享受到Tidy2的强大功能。 描述部分提供了安装Tidy2...

    notepad++ HTML 插件 Tidy2 (只适用于64位Windows操作系统)

    对于64位Windows用户来说,Tidy2特别重要,因为它解决了32位插件在64位系统下可能遇到的问题,确保了在64位Notepad++上的稳定运行。 **Tidy2的功能** 1. **格式化代码**:Tidy2可以自动整理混乱的HTML代码,使其更...

    C++(Qt)软件调试-静态分析工具clang-tidy(18)

    C++(Qt)软件调试-静态分析工具clang-tidy C++(Qt)软件调试-静态分析工具clang-tidy是指使用clang-tidy对C++代码进行静态分析,以发现潜在问题和改进代码质量。clang-tidy是一个开源工具,支持C++/C/Objective-C语言...

    notepad++ 格式化html tidy2

    5. **tidy2.dll**:这是tidy2插件的动态链接库文件,是插件运行所必需的组件,需要将其放在Notepad++的正确目录下才能正常工作。 6. **Notepad++插件系统**:Notepad++允许用户自定义功能,通过安装各种插件,如...

    notepad++插件 Tidy2_0.2

    本文将详细探讨Tidy2插件的功能、使用方法及其在64位系统中的应用。 Tidy2插件是基于Tidy这一历史悠久的HTML清理和格式化工具的升级版本,主要用于修复和格式化不规范的HTML、XML和XHTML代码。它的主要功能包括: ...

    notepad++好用的html代码格式化插件Tidy2.dll.rar

    但是使用Notepad++软件,选择插件菜单——Plugin Manager——Show Plugin Manager,在插件列表中找到tidy2进行安装时总是报错: installation of tidy2 failed (我已经翻墙了并且能下载,但是下载完成后就报这个...

    HTML Tidy 中文手册

    这个中文手册是Tidy的详细指南,由热心的开发者原创翻译并在CSDN(China Software Developer Network)上首次发布,旨在帮助中国用户更好地理解和使用这款工具。 在HTML编程中,保持代码的规范和整洁至关重要,因为...

    Notepad++ Tidy2

    1. 安装Tidy2:首先,你需要将下载的`Tidy2.dll`文件复制到Notepad++的安装目录下的`plugins`子目录中。如果Notepad++已经打开,重启程序以使插件生效。 2. 配置Tidy2:在Notepad++中,选择`Plugins`菜单,然后找到...

    html tidy c++库

    HTML Tidy是一个开源的工具,主要用于清理和修复不规范的HTML代码,使其符合W3C的HTML和XHTML标准。这个工具最初由Dave Raggett开发,后来发展成为一个跨平台的库,支持多种编程语言,包括C++。"html tidy c++库...

    Notepad++ Tidy2.dll 格式化html代码

    3. 重启Notepad++,然后在菜单栏上选择“Plugins” -> “Tidy2” -> “Configure Tidy2”,这将打开Tidy2的配置界面。 4. 在配置界面中,你可以调整各种选项来满足你的需求。例如,你可以设置缩进方式(空格或制表...

    Notepad++格式化HTML插件tidy2

    Tidy2是其在Notepad++中的集成版本,提供了更多的定制选项和更好的用户体验。 安装Tidy2_0.2插件的步骤简单明了。首先,你需要将下载后的压缩包解压,然后找到其中的文件,这些文件通常包括.dll扩展名的动态链接库...

    32位Tidy2.dll.rar

    标题中的“32位Tidy2.dll.rar”指的是一个针对32位操作系统的动态链接库文件(DLL),名为“Tidy2.dll”,它被压缩在RAR格式的文件中。RAR是一种常见的压缩文件格式,用于存储多个文件在一个单一的档案中,以节省...

    tidy2.dll免费下载

    tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载

    httpunit.jar tidy.jar

    本篇文章将深入探讨两个关键的Java库——HttpUnit和Tidy.jar,以及它们在不同版本JDK环境中的应用。 HttpUnit是一个强大的Java测试框架,特别设计用于模拟Web浏览器的行为,帮助开发者对Web应用程序进行自动化测试...

    notepad++ 64位格式化HTML插件 tidy2 64位.rar

    4. 安装完成后,重启Notepad++,tidy2插件应该已经集成到“插件”菜单下,通常命名为“Tidy”。 5. 要使用tidy2格式化HTML或XML文件,只需选中需要格式化的代码,然后从“插件”菜单中选择"Tidy"相关的选项,比如...

    Python库 | tidy_project-0.1.tar.gz

    在本案例中,我们关注的是名为"tidy_project-0.1.tar.gz"的压缩包,这显然是一款针对Python项目的管理库。让我们详细探讨一下这个库可能涉及的知识点以及Python库的一般概念。 首先,"tidy_project"这个名字暗示了...

    PyPI 官网下载 | tidy3d-21.2.1.3.tar.gz

    《PyPI官网下载:tidy3d-21.2.1.3.tar.gz——Python库解析》 PyPI(Python Package Index),是Python社区官方的软件包仓库,提供了丰富的Python库供开发者下载和使用。在PyPI官网上,我们可以找到名为"tidy3d-21.2...

Global site tag (gtag.js) - Google Analytics