`

空格符在多种字符集下的编码

阅读更多

前一段时间在写代码时(在VC下),要去掉网页内容中的空格之类的空白符,发现一个问题,那就是有一些空格并没有被去掉,一时不知所措,郁闷了一段时间。后来发现,在已经早有准备的UNICODE上出现了错误,或是理解为在UNICODE上出现了转机。没想到的是在UNICODE下空格是0x3000(12288),而一直当成0x0020(32),UNICODE下的扩展ASCII。若是英文下的空格那肯定是0x0020,若是中文下的空格那就是0x3000,当然是在UNICODE大环境下。

        在写网页文章时,不乏在中文输入法的情况下输入空格,这时要想去掉就的去判断是否==0x3000,这样才能做进一步的处理。现在还没有发现在中文输入法下,输入TAB键是否不一样!我目前发现还是一样的,都是0x0009(9),若发现不行了,再回来补充吧!

        在网页中的字符集编码又不相同。网页字符集常用的有:UTF-8、GB2312、GB18030等,在这些字符集下空格的编码又不相同,它是0xA1A1(41377),在编程时可能要注意。

        虽然想空格这样的可能是一些不起眼的字符,但是在细化处理时却比较麻烦。比如从网页中读用户输入的数据并保存到数据库时,就很有可能要对用户“无意”输入的一些类似空格等字符进行处理,这时就要注意了。若是在VC中嵌入网页并进行数据的处理,则就更应该注意一些空白符了。我发现通常从网页中获取的空白符包括:

                   空字符(0x0000)

 报警(0x0007)

 水平制表符(0x0009)

 换行符(0x000A /n)

 垂直制表符(0x000B)

 换页(0x000C)

 回车符(0x000D /r)

 空格符(0x0020),英文下ASCII扩充的UNICODE空格、

 空格符(0xA1A1)UTF-8GB2312或其他网页制式中的空格、

 空格符(0x3000),中文下UNICODE空格。

在进行细化处理时显得很重要。
分享到:
评论

相关推荐

    VB字符集

    博文链接:<https://ktc7000.iteye.com/blog/1774542> 提到了有关VB字符集的详细信息,可能包括如何在VB中处理特殊字符,字符编码,以及如何在代码中使用不同字符集的示例。由于没有实际访问链接,我们无法获取具体...

    对字符串编码

    ASCII编码是最简单的,只包含英文字符,而Unicode则包含了世界上大多数语言的字符集,其中UTF-8是目前最广泛使用的编码方式,它能兼容ASCII并支持多种语言。 在存储图片缓存时,通常我们会遇到URL的问题。URL(统一...

    winForm中进行Utf-8 及 GB2312转换

    Utf-8是一种广泛使用的多字节字符编码,支持Unicode字符集,能表示世界上几乎所有的文字。GB2312则是中国国家标准的简体中文编码,主要针对中文字符。 Utf-8编码的最大优点在于其兼容性,它能够完美地显示各种语言...

    URL中编码URL特殊字符.docx

    总结起来,URL编码是一个复杂且需要考虑多种因素的过程,包括字符集、浏览器行为、HTTP方法和JavaScript编码函数的使用。了解这些差异对于正确处理和解析URL中的特殊字符至关重要,特别是在开发跨平台和跨浏览器的...

    URL编码解码小工具

    通过支持GB2312和UTF8这两种常见的字符编码,它确保了在多种语言环境下都能正常工作,提高了工作效率和用户体验。在日常的互联网使用中,掌握URL编码解码的基本原理和使用这样的工具,对于理解和解决网络问题具有...

    易语言取Escape编码

    在Windows系统中,ANSI编码通常是系统默认的多字节字符集,它依赖于系统区域设置。而Unicode是一种双字节编码,能够表示更多的字符。当处理包含多种语言或特殊字符的字符串时,可能需要将ANSI编码的字符串转换为...

    仿淘宝,拍拍等查询关键词字符串编码算法实现(PHP版)

    字符串编码通常涉及到字符集(如ASCII、UTF-8)和编码方式(如URL编码、Base64编码)。在电商搜索场景下,编码的主要目的是对关键词进行规范化,去除或转换不必要的字符,以及确保关键词能在URL中安全传输。 PHP版...

    超详细的字符编码教程

    ISO/IEC 8859编码标准中的15种字符集 A.3. Code Page表格 A.3.1. 常见的ANSI和OEM的Code Page的表格 A.3.1.1. ANSI Code Page表 A.3.1.2. OEM Code Page表 A.3.1.3. ANSI和OEM共有的Code Page表 A.3.1.4. 其他一些...

    java源文件编码转换工具加源码(自动检测源文件编码类型)

    GBK是中国大陆广泛使用的汉字编码标准,支持更多的汉字,但不包含Unicode字符集。UTF-8则是国际上通用的多语言编码,它包含了全世界几乎所有的字符,包括GBK中的所有字符。因此,将GBK编码的源文件转换为UTF-8,可以...

    URL编码转换工具 很好用

    URL编码基于ASCII字符集,其目的是为了保证URL在HTTP协议中能够被正确地传递和解析。因为URL中可能包含非ASCII字符或者某些特殊字符,如空格、引号等,这些字符在传输时可能会引起混淆或错误。因此,URL编码使用百分...

    字符工具V1.6.zip UTF8 unicode GBK字符格式互相转换 空格剔除 换行剔除 和校验 异或校验

    UTF-16编码在处理Unicode字符集时效率较高,但其字节数不固定,可能影响存储和传输效率。 3. **GBK**:GBK是中国大陆使用的扩展GBK编码,它是GB2312的升级版,包含了更多的汉字和其他语言字符,主要用于简体中文...

    易语言URL编码转换模块

    GBK编码采用双字节表示字符,兼容GB2312,但扩展了更多字符集,以适应更多的汉字需求。 UTF-8是一种多字节的字符编码方案,可以表示Unicode字符集中的所有字符。它在互联网上非常常见,因为其前128个字符与ASCII...

    单双字字符 转换工具

    1. ASCII与Unicode之间的转换:用户可以输入包含单字或双字字符的字符串,工具会自动识别并进行转换,使得在不同的字符集环境下能正常显示和处理。 2. URL编码与解码:工具可以对URL中的非ASCII字符进行编码,使其...

    基于PHP的URL编码转换工具源码.zip

    理解字符集和编码在Web开发中至关重要,因为不同的编码可能导致乱码问题。 4. **安全性**:URL编码可以防止特殊字符被误解,例如,如果URL中包含`&`字符,不进行编码可能会导致参数解析错误。 5. **应用实例**:...

    URL编码转换工具

    URL编码是互联网上的一种标准编码方式,用于将特殊字符转换为可安全传递的ASCII字符串,以便在URL(统一资源定位符)中使用。这个“URL编码转换工具”就是专门为了帮助开发者解决这个问题而设计的。它能够将URL中的...

    字符串转换工具

    10. **字符集转换**:对于多语言环境,不同字符集(如GBK、BIG5等)的转换至关重要。字符串转换工具能够处理这些问题,确保多语言文本的正确显示。 总的来说,字符串转换工具是处理文本数据的强大助手,它涵盖了...

    比较字符串是否相同.rar

    当涉及到不同字符集(如ASCII、Unicode)时,字符串比较可能会复杂化。例如,在Unicode环境中,比较时要考虑字符的编码。在Python中,可以使用`str.encode()`转换为字节,然后进行比较。 4. **字符串比较的注意...

    易语言判断字符类型源码.rar

    - **编码问题**:不同的字符集(如ASCII、GB2312、UTF-8等)对字符的表示方式不同,处理时需注意字符编码的转换。 - **错误处理**:在处理字符时可能会遇到非法字符或编码错误,需要编写适当的错误处理代码来避免...

    条码code128

    解码过程包括扫描条码,检测起始和终止符,识别字符集,解码数据符,验证校验码,并将数据传输到相应的系统。 ### 6. 设计与打印 设计Code 128条码时,应确保足够的对比度、清晰的边缘和适当的尺寸,以确保扫描器...

Global site tag (gtag.js) - Google Analytics