`
betafox
  • 浏览: 147704 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

NekoHTML 处理转义字符的问题

阅读更多
NekoHTML在处理html文档时,如果碰到&开始的转义字符(如 空格),会出现乱码问题!

现象:

此问题在网络上多次出现,但没有解决办法,经过跟踪nekoHtml的执行,发现其处理&转义字符时需要读取org\cyberneko\html\res\HTMLlat1.properties属性文件,查找&转义字符的对应字符,但是由于某种原因,java.util.Properties类在读取此文件会产生乱码;

解决办法:

由于我提取html内容后最终还是要已html的形式在页面展示,所以对转义字符的处理并不希望在内容提取时进行,而是有浏览器在显示时做转换;所以可以将HTMLlat1.properties文件内容清空,转义字符直接是原样输出;


java.util.Properties类为什么会读出乱码还需要分析,那位大侠知道请回复哦!如空格' '的确对应\u00a0,通过字符串编码处理确实可以得到' ',但是通过Properties却读出为'?';

 

分享到:
评论
1 楼 chencang 2008-04-02  
原来如此,我的搜索结果中也出现好多"?" 

相关推荐

    NekoHTML

    NekoHTML特别适用于处理不规范或非标准的HTML,因为它可以纠正一些常见的语法错误,并尝试按照预期解析页面内容。 在HTML解析过程中,NekoHTML扮演着一个重要的角色,它通过其内部的解析器(即`org.apache.xerces....

    NekoHtml解析 html 文件

    博客链接中提到的是作者Tivonhou在iteye上的博客文章,虽然具体内容无法查看,但通常这类文章可能会涵盖如何使用NekoHtml解析HTML文件、解决常见问题、优化性能,以及与其他解析库对比等方面的知识。 在压缩包...

    nekohtml-1.9.13.zip

    NekoHTML虽然相对轻量级,但在处理大型文档时可能会显得较慢。在这种情况下,可以考虑使用更高效的解析器,如JSoup,它提供了一种更快速且更直观的方式来处理HTML。 总的来说,NekoHTML是一个强大的工具,特别是在...

    NekoHtml 解析内容时需要注意的地方

    5. **性能考虑**:由于NekoHtml的解析过程涉及大量的字符串操作和DOM构建,对于大规模的HTML文档,可能会消耗较大的系统资源。在处理大量或大型HTML文件时,需要评估性能并考虑优化策略,比如分块处理或使用更高效的...

    nekohtml-1.9.14源码及jar包

    - **Entity Resolver**:nekohtml允许用户自定义实体解析器,处理HTML中的特殊字符或外部引用。 - **Error Handling**:nekohtml提供错误处理机制,当遇到不符合规范的HTML时,可以选择忽略、修正或者抛出异常。 ...

    Nekohtml_0.9.5(Java).rar_Nekohtml_0.9.5_java 搜索引擎_nekoht_nekohtm

    3. **可扩展性**:由于其基于Java,NekoHTML可以轻松集成到其他Java项目中,且与其他Java XML处理库(如JDOM、DOM4J等)兼容,提供了丰富的API供开发者扩展和定制。 4. **安全分析**:NekoHTML在解析过程中可以过滤...

    NekoHTML的相关用法以及j代码包

    NekoHTML的主要功能是将不规范的HTML源代码转换为标准的XML,使得开发者可以更容易地处理和操作网页内容。在这个主题中,我们将深入探讨NekoHTML的核心概念、用法以及相关的Java代码示例。 **核心概念** 1. **HTML...

    Java解析HTML之NekoHTML

    NekoHTML通过识别HTML标签、属性、闭合标签的错误来构建一个近似的DOM(Document Object Model)结构,这对于处理不规范的HTML尤其有用。 使用NekoHTML进行HTML解析的基本步骤如下: 1. 引入NekoHTML库:在Java...

    nekohtml 帮助类

    3. **错误处理**:`NekoHelper`可能包含了处理解析过程中遇到的问题的方法,例如处理不可识别的标签或无效的XML结构。 4. **定制解析行为**:`NekoHelper`类可能提供了配置解析器的行为,例如忽略某些错误、添加...

    nekohtml-1.9.18_

    这样做的好处是,即使HTML源代码存在错误或不规范,NekoHTML也能尽可能地修复这些问题,使开发者能够以更稳定的方式处理文档内容。此外,由于DOM树是基于标准的XML结构,因此可以利用各种XML处理技术来操作HTML文档...

    nekohtml-1.9.15.zip

    NekoHTML is written using the Xerces Native Interface (XNI) that is the foundation of the Xerces2 implementation. This enables you to use the NekoHTML parser with existing XNI tools without ...

    nekohtml-1.9.7.zip

    "nekohtml-1.9.7.zip" 是一个压缩包文件,其中包含了一个名为 "nekohtml-1.9.7" 的程序库。这个库主要用于处理HTML文档,为开发者提供了解析和构建HTML文档的功能。在IT行业中,处理HTML文档是网页开发、数据抓取、...

    NekoHTML技术

    NekoHTML技术预研说明,如何进行HTML页面解析,网页信息抽取

    NekoHTML学习笔记.doc

    NekoHTML 学习笔记 NekoHTML 是一个简单的 HTML 扫描器和标签补偿器,使得程序能解析 HTML 文档并用标准的 XML 接口来访问其中的信息。这个解析器能投扫描 HTML 文件并“修正”许多作者(人或机器)在编写 HTML ...

    NeKoHTML 1.9.21

    NeKoHTML可以将这些不规则的HTML转换为结构清晰、符合标准的DOM树,从而方便后续的处理和分析。 在Java开发中,NeKoHTML通过提供一个名为`org.cyberneko.html.parsers.DOMParser`的类,使得开发者能够轻松地将HTML...

    nekoHtml 1.9.19 加 source 源码 html分析jar

    其次,如果遇到特定的解析问题或者需要扩展nekoHtml的功能,可以直接修改源码来满足需求。最后,源码可以帮助开发者快速定位并修复可能遇到的bug,提高应用的稳定性。 在使用nekoHtml时,开发者可以通过Java API...

    nekohtml+dom4j

    【nekohtml+dom4j】是一个用于处理和解析HTML及XML文档的组合工具,它在IT领域中常被用作强大的网络数据抓取和分析工具。在这个组合中,nekohtml扮演着核心角色,而dom4j则提供了强大的DOM(Document Object Model)...

    NekoHTML学习笔记.rar

    NekoHTML是一个简单地HTML扫描器和标签补偿...NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。

    nekohtml解析器

    NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常...

    上传nekohtml-1.9.9.zip

    总的来说,NekoHTML是一个强大且灵活的工具,对于处理和转换HTML内容,尤其是那些可能存在格式问题的网页,非常有用。通过使用这个库,开发者可以更有效地处理HTML数据,提升应用的稳定性和效率。在实际开发中,结合...

Global site tag (gtag.js) - Google Analytics