`
bellstar
  • 浏览: 150985 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

utf8编码字符串转成编码所代表的字符串

    博客分类:
  • ruby
阅读更多
用mechanize从google获取到我的书签列表的XML文件.http://www.google.com/bookmarks/?output=xml&num=10000
发现中文字符都表示成了转义字符,形如㹅 这种转义字符使你的文档编码为任何一种,都能在网页中正常显示转义字符所代表的字符串.
现要将这种转义字符串全部还原成其代表的字符串,然后保存起来存到数据库里
def decodeESC( string )
    string.gsub(/&#x(.{4,4});/){ [("0x"+$1).to_i(16)].pack("U") }
end
分享到:
评论

相关推荐

    Java 所有字符串转UTF-8 万能工具类-GetEncode.java

    不需要关心接受的字符串编码是UTF_8还是GBK,还是ios-8859-1,自动转换为utf-8编码格式,无需判断字符串原有编码,用法://处理编码String newStr = GetEncode.transcode(oldStr);

    Labview 字符串和UTF8的相互转换

    在做Labview和tcp通讯的时候,需要发送中文字符串,找了会相关资料,竟然找到了labview提供的现成的字符串到utf8相互转换的vi,整理了一下分享出来,2014环境下目前测试可以直接使用。原文...

    将字符串从常用编码转为utf-8编码(java)

    Java字符串编码查询及转换,可将常用的一些编码格式转换成utf-8

    Qt中的字符编码转换:UTF8、Unicode、GBK、ASCII、16进制字符、16进制数值

    6. **16进制字符串转换**:16进制字符串可以转换为Unicode或UTF-8字符串,这通常涉及到将每个16进制数字对解析为一个字节,然后组合成字符。对于GBK编码,可能需要先将16进制字符串转换为Unicode,然后再转换为GBK。...

    TCP_Client-D2010-SendBuf方式发送utf8编码字符串

    TCP_Client-D2010-SendBuf方式发送utf8编码字符串(较简洁)-2019-8-4-1845.rar, TCP_Client-D2010-SendText方式发送utf8编码字符串-2019-8-4-1815.zip

    易语言判断UTF-8字符

    易语言是一种基于中文编程的程序设计语言,旨在降低编程门槛,让不懂英文的...通过学习和理解这段代码,你可以更好地掌握易语言处理UTF-8编码字符串的方法,并能将其应用到自己的项目中,提高程序的兼容性和健壮性。

    PB字符串转XML文件,解决PB12.5创建UTF-8文件BOM问题(powerbuilder 12.5)

    由于项目需要,需要字符串转为XML文件,直接用Fileopen进行EncodingUTF8编码后,发现文件实际为UTF-8 BOM编码 问度娘发现有相同问题,但解决方式是利用新建一个UTF-8的TXT文件后,再进行COPY加内容。感觉这样操作...

    C++ 汉字UTF-8字符串处理类库

    很多人喜欢用CString 或std:string,但是他们的缺点是不能完成汉字各种类型之间的转换,提供三种类库ascString,ucsString,utfString以及工具utfCount,utf8_ucs2_t,tcf8_ucs4_t类库,用于各种字符串之间的直接转换`...

    utf-8 ansi 字符互转 工具

    1. **UTF-8**:全称为“Unicode Transformation Format - 8”,是一种变长的字符编码,可以表示Unicode字符集中的所有字符。UTF-8最显著的特点是它对英文字符使用单字节,而对其他语言(如中文、日文等)使用多字节...

    C语言字符编码转换UNICODE、GBK、UTF-8互相转换

    它使用数字来表示每个字符,并有多种编码方式,如UTF-8、UTF-16和UTF-32。其中,UTF-8是最常用的,因为它对ASCII字符保持兼容,并且在大多数网络传输中占据更少的空间。 GBK是中国大陆广泛使用的汉字编码标准,它是...

    C++实现判断一个字符串是否为UTF8或GBK格式的方法

    本文实例讲述了C++实现判断一个字符串是否为UTF8或GBK格式的方法。分享给大家供大家参考,具体如下: 在处理外部数据的时候,很可能因为数据格式不一样而导致乱码,甚至导致某些程序挂掉。鉴于对多数系统来说,使用...

    java字符串的各种编码转换

    根据提供的文件信息,本文将详细解释Java中字符串的不同编码转换方法及原理,并深入探讨每种编码格式的特点。 ### Java字符串的编码转换 在Java中,处理不同字符集之间的字符串转换是一项常见任务。尤其是在处理...

    多字节与UTF-8、Unicode之间的转换

    - 再通过`WideCharToMultiByte`函数将宽字符字符串转换为UTF-8编码的字符序列。 2. **UTF8ToMB** 该函数实现了从UTF-8编码转换回多字节编码的过程。其流程与上述过程相反: - 先使用`MultiByteToWideChar`将...

    c语言gbk、utf8转换编码表及函数

    - `gbk_to_utf8()`函数可能接收GBK编码的字符串作为输入,返回转换后的UTF-8编码字符串。 - `utf8_to_gbk()`函数则相反,它接受UTF-8编码的字符串,返回GBK编码的字符串。 6. **注意事项** - 转换过程中需要处理...

    UTF8转16进制工具 Utf8ToHex

    标题中的"UTF8转16进制工具 Utf8ToHex"指的是一个能够将UTF-8编码的字符串转换成16进制表示形式的实用工具。描述中提到的例子,中文的“你好”在UTF-8编码下是"\xE4\xBD\xA0\xE5\xA5\xBD",这个就是将UTF-8编码转换...

    CString转UTF8,UTF8转CString

    本文将详细介绍如何在MFC中实现`CString`对象与UTF-8编码字符串之间的转换。 #### 一、基础知识 在深入讨论转换函数之前,我们先简要了解一下相关的基础知识: 1. **CString**:是MFC中的一个类,用于封装C风格的...

    utf-8 互转 gb2312 转码

    需要注意的是,不是所有UTF-8或GB2312编码的字符串都能相互转换,因为GB2312编码范围有限,不能表示UTF-8中的所有字符。在实际操作中,我们需要先检查输入字符串的编码类型,再进行相应的转换,以防止出现编码错误。...

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    例如,将一个UTF-8编码的字符串转换为Unicode编码的字符串: ```java String utf8Str = "中文"; String unicodeStr = new String(utf8Str.getBytes("UTF-8"), "UTF-8"); ``` #### 6. 示例分析 - **从GBK到ISO-...

    UTF8及各种字符串相互转换

    标题中的“UTF8及各种字符串相互转换”涉及的是字符编码和数据表示的领域,这是一个在计算机科学中至关重要的概念。UTF8是Unicode的一种实现方式,它是一种广泛使用的字符编码标准,能够表示世界上大部分语言的字符...

    以utf8格式截取的字符串编码

    在这个场景中,"以utf8格式截取的字符串编码"指的是在处理UTF-8编码的字符串时进行截取操作的方法和注意事项。 首先,我们要理解UTF-8编码的特点。UTF-8是一种变长编码,每个Unicode字符可能由1到4个字节来表示。...

Global site tag (gtag.js) - Google Analytics