`
wangxuliangboy
  • 浏览: 210665 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

HTML标签补偿器

阅读更多

一个简单的HTML标签补偿器,能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。主要用到了NekoHTML

CODE:
DOMParser parser = new DOMParser();
//下面这段代码缺少了</p></pre>标记
InputStream in = new ByteArrayInputStream(
"<pre><pre>Product Name:lady slipper  </pre><pre>Model Number: 816</pre><pre>Size:36-41#</pre><p>Color: all colors available </p><pre>Place of Origin: China</pre><pre> </pre><pre>Feature:</pre><pre>1)UPPER: pvc</pre><pre>2)OUTSOLE:pvc</pre><pre>3)Suitable age:women</pre><p>Packing:polybag or according to your requests".getBytes());

InputSource source = new InputSource(in);
//解析源
parser.parse(source);
//得到解析完成的DOCUMENT
Document doc = parser.getDocument();
// 获得将DOM文档转化为XML文件的转换器。
TransformerFactory tfactory = TransformerFactory.newInstance();
Transformer transformer = tfactory.newTransformer();
// 将DOM对象转化为DOMSource类对象
DOMSource dsource = new DOMSource(doc);
StringWriter write = new StringWriter();
// 获得一个StreamResult类对象,该对象是DOM文档转化成的其他形式的文档的容器,可以是XML文件,文本文件,HTML文件。这里为一个XML文件
StreamResult result = new StreamResult(write);
// 调用API,将DOM文档转化成XML文件
transformer.transform(dsource, result);
System.out.println(write.getBuffer().toString());

分享到:
评论

相关推荐

    NekoHTML学习笔记.rar

    NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的...

    nekohtml包能够解析HTML文件

    NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的...

    NekoHTML学习笔记.doc

    NekoHTML 是一个简单的 HTML 扫描器和标签补偿器,使得程序能解析 HTML 文档并用标准的 XML 接口来访问其中的信息。这个解析器能投扫描 HTML 文件并“修正”许多作者(人或机器)在编写 HTML 文档过程中常犯的错误。...

    基于MAX6675冷端温度补偿应用

    3. **MAX6675芯片**:该芯片具有内置的温度转换器,可以将热电偶的毫伏信号转换为温度读数,并提供了SPI(串行外围接口)用于与微控制器通信,简化了系统的集成。 4. **C语言编程**:在嵌入式系统中,C语言常用于...

    补偿

    然而,根据提供的标签"HTML",我们可以将焦点集中在网页开发中的补偿策略,特别是HTML(超文本标记语言)在处理错误、不兼容性和增强用户体验方面的技术。 HTML是构建网页的基础,它定义了网页的结构和内容。然而,...

    Web-前端html+css从入门到精通 168. IE低版本常见BUG.zip

    此外,IE低版本对CSS选择器的支持也有局限,如:伪类`:hover`、`:first-child`在IE6中不起作用,需要使用JavaScript进行补偿。还有,IE6不支持CSS `display:none`,需要使用`visibility:hidden`代替。 布局方面,IE...

    vinproma:vMix输入进度监视器应用程序。 以HTML查看当前播放输入的进度或发送到vMix标题(建议使用XAML)

    以HTML页面形式查看进度线性进度或循环亮或暗模式vMix标题模式:将进度发送到您选择的vMix标题输入多种类型的数据发送能够设置多个“目的地” 启用延迟补偿的能力资料下载请参阅“标签以直接下载适用于Mac和Windows...

    16385357110226048238.zip

    在本压缩包"16385357110226048238.zip"中,虽然没有直接包含电抗器设计的详细技术文档,但我们可以基于标签"电抗器"和"电力系统"来探讨一下铁芯串联电抗器的设计原理和相关知识点。 铁芯串联电抗器通常由铁芯和绕组...

    全屏代码使用

    在第二段代码中,`left:50%`将元素水平居中,通过负的`margin-left`(即`left:-海报宽度一半 px`)来补偿,实现图片的中心对齐。 3. **图片处理**: 图片的显示通过`&lt;img&gt;`标签完成,`src`属性定义图片的URL,`...

    储油罐液位测量系统设计.docx

    文档标题为“储油罐液位测量系统设计”,涉及的是一个基于微控制器的液位测量系统的设计与实现,主要使用的编程语言可能是C语言(CS标签可能指的是C语言或者计算机科学),并提到了HTML、89C2051微控制器以及40kHz...

    jQuery商城常用左侧悬浮导航定位代码.zip

    2. `var nav = $('#navbar')`:选择器用于获取导航栏元素,#navbar是ID选择器,对应HTML中的`id="navbar"`。 3. `var scrollTop = $(this).scrollTop()`:获取当前滚动条的垂直位置。 4. `if (scrollTop &gt; offset) {...

    java常用类库中文速查表

    NekoHtml是一个简单的HTML扫描器和标签补偿器,用于解析HTML文档。 HTTP协议支持方面,Apache提供了高效的HTTP客户端编程工具包,支持HTTP协议最新版本。Apache提供了一个基于JavaMailAPI的简化版,用于发送Email的...

    ADC.rar_STM32F107VCT6

    3. 误差校准:为了提高精度,可能需要对ADC进行内部校准,以补偿温度和电源电压变化的影响。 4. 多通道转换:如何同时或顺序地对多个通道进行采样。 5. 应用示例:可能包含与实际传感器配合使用的示例代码,如温度、...

    前端项目-Broadway.zip

    H.264以其高压缩率和高质量的视频体验而闻名,是HTML5视频标签中常用的编码格式。 “描述”提到的“一个javascript H.264解码器”揭示了Broadway项目的核心功能。在浏览器环境中,JavaScript通常用于处理用户交互和...

    EL3250Microcontroller:分配在STM32微控制器上创建频率采样器

    至于标签"HTML",这似乎与嵌入式系统直接关联不大,但可能意味着项目中包含了用HTML编写的用户手册、网页文档或是用于配置或显示测量结果的Web界面。如果是这种情况,开发者可能需要结合JavaScript、CSS等技术来创建...

    tcc

    【标题】"tcc"可能指的是“Try-Confirm-Cancel”模式,这是一种分布式事务处理的补偿型事务管理器。在IT行业中,TCC是Transaction Compensation Commit的缩写,主要用于解决微服务架构中的分布式事务问题。 【描述...

    ADS1299数据采集系统程序.zip

    标签“ADC”(模数转换器)是ADS1299的一个关键特性,它将生物信号的模拟电压转化为数字值,以便于微控制器处理。而“脑电信号处理”则表明这个程序的主要应用领域是神经科学和生物医学工程,通过收集并解析脑电信号...

    AV1比特流和解码过程规范_CSS_Sass_下载.zip

    至于“下载”这个标签,可能指的是提供的资源包含了一些用于学习或实践的AV1解码库、工具或示例代码,这些可能需要通过下载才能获取。例如,av1-spec-master可能是一个包含AV1规范详细文档的文件夹,开发者和研究...

    BMP180_IOIO_Driver:IOIO 的 BMP180 驱动程序

    **HTML标签的关联性** 在这个上下文中,"HTML"标签可能是误标记或者不适用。通常,BMP180 IOIO驱动程序与HTML无关,因为这是硬件层面的编程,而HTML主要用于网页设计和结构化内容的表示。如果HTML在这里有所涉及,...

    TwinCAT_CNC:基于在TwinCAT3中编程的Beckhoff硬件构建的CNC路由器

    4. **编程CNC**:使用TwinCAT3编程CNC路由器涉及到多个方面,如刀具路径规划、G代码生成、速度控制、误差补偿等,这需要深入理解机械工程和编程知识。 5. **Web界面**:虽然标签为"HTML",但在CNC系统中,可能意味...

Global site tag (gtag.js) - Google Analytics