ruby处理中文URL的办法

meatloaf

浏览: 23386 次
性别:
来自: 地狱

最近访客更多访客>>

u013739611

zhangcaiyanbeyond

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

ruby

Ruby 正则表达式浏览器 CSS HTML

有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，一般浏览器都能够自动的处理进行转化，不看Html代码，你根本不知道存在这种转化。
但我目前有个需求，需要进行html的解析，并且要和本地目录进行比较，因此就需要在ruby中把这种使用编码点的url字符串转化为字符。
比如下面这个url

src="./&#20912;&#37239;&#19968;&#22799;.files/gif-0268.gif"

一开始，考虑用unpack来做

str = path.gsub(/&#(\d+);/) { |s| [$1.to_i(16)].pack("U") } 
puts str

控制台的编码方式是gbk，这时输出是乱码，尝试进行转码

path = "./&#20912;&#37239;&#19968;&#22799;.files/gif-0268.gif"
str = path.gsub(/&#(\d+);/) { |s| [$1.to_i(16)].pack("U") }
puts str
require "iconv"
puts Iconv.conv("gbk", "utf-8", str)

没想到输出是一样的

./馉鸱埞饳エ稷灆.files/gif-0268.gif
./馉鸱埞饳エ稷灆.files/gif-0268.gif

忽然想到java里面的做法

//str是通过正则表达式取出的数字，这样做是可以的
(char)Integer.valueof(str).intValue()

但是ruby并不支持unicode的编码点，因此ruby中int类型的to_char方法最大到256，这样也行不通。
于是想到用jruby来绕过这个转换的过程

    i = Ja::Integer.new(number)
    c = Ja::Character.new(i.intValue())
    Ja::String.valueOf(c)

这个代码是可以运行的了。

又过了好几天，忽然又想到问题可能是处在对编码点的理解上，一开始用的是16进制，应该使用十进制的，于是又试了一下，问题解决了

str = path.gsub(/&#(\d+);/) { |s| [$1.to_i(10)].pack("U") }
puts str
require "iconv"
puts Iconv.conv("gbk", "utf-8", str)

其实，一开始就应该想到这个url是用十进制表示的编码点的，惯性思维，一看到编码点就直接用16进制了，这是个教训，呵呵。

今天把这点经验放上来，希望能帮到同样也在做这个事情的朋友。

分享到：

闻听普元EOS6新特性，有感而发 | JavaFx还是Flex

2008-10-08 15:59
浏览 3485
评论(11)
论坛回复 / 浏览 (10 / 9494)
查看更多

11 楼 nail2008 2008-10-10

偶然进入，我是搞java的，ruby一点都不懂。
最近乱码问题搞的比较多，乱码这东西是具体情况要具体分析的，不是一个方法走遍全球的。
我的感受是，并不是码乱了，而是我们用了错误的方式去解码。比如js的escape我一般是不用的，%E7%8E%8B%E5%B0%8F%E8%99%8E

10 楼 nail2008 2008-10-10

偶然进入，我是搞java的，ruby一点都不懂。
最近乱码问题搞的比较多，乱码这东西是具体情况要具体分析的，不是一个方法走遍全球的。
我的感受是，并不是码乱了，而是我们用了错误的方式去解码。
比如js的escape我一般是不用的，encodeURIComponent告诉我打的就是Unicode的，我为什么要用escape。服务器端如果是UTF的就好说了，但是如果是GBK的，你看见的就是乱码了。乱码：????°?è??
乱了不要紧，str = java.net.URLEncoder.encode(str, "ISO-8859-1");先打回%E7%8E%8B%E5%B0%8F%E8%99%8E
str = java.net.URLDecoder.decode(str, "UTF-8");再看到的就是“王小虎”。

这个方法是准“放之四海皆准”的方式了吧，似乎可以不叼任何容器配置，页面的编码。不过我们不是民工，编程是科学，是艺术。该写filter还是要写的。

9 楼千山我独行 2008-10-10

收藏，也许以后能用上。

8 楼 meatloaf 2008-10-09

Quake Wang 写道

meatloaf 写道

有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，

这个不是叫codepoint，它叫html entity，有3种格式：
1. named entity，比如我们常见的用& nbsp ;来表示空格
2. 基于10进制的，就是你文章中说的，比如 & # 12345;
3. 基于16进制的，多了一个x，比如& # x12c3;
补上一段能够同时适用2和3的正则替换，来源 ( http://htmlentities.rubyforge.org/ )

gsub(/&#([0-9]{1,7});|&#x([0-9a-f]{1,6});/i) {
  $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U')
}

---分割线---
发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改...

很可惜，你说错了，$#\d+;这种形式的确是html entity没错，html entity中间的数字部分就叫entity number，这其实就是编码点(codepoint)，而且是unicode codepoint，不过它有10进制和16进制两种形式。这部分是我欠考虑的，你给的代码例子比我的全面，谢了。

关于编码点和编码字符集的概念在国际化和本地化中是非常重要的概念，看起来即使是在javaeye这种地方，知道的人也不多啊，下面这个url，大家可以参考下http://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references

7 楼 wosmvp 2008-10-09

花花公子写道

是你自己操作系统设置的问题，改language-selector.conf

wosmvp 写道

Quake Wang 写道

meatloaf 写道

有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，

gsub(/&#([0-9]{1,7});|&#x([0-9a-f]{1,6});/i) {
  $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U')
}

---分割线---
发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改...

PS:其实JE 还有个小问题,就是在英文操作系统下,UTF8…… 发帖子时字体很难看，见下图

修改textarea的CSS 加上字体类型就会好的

language-selector.conf 配置文件在那里？

可以在网页里修改，我自己写的网站就是通过这样修改的，一切正常

6 楼花花公子 2008-10-09

是你自己操作系统设置的问题，改language-selector.conf

wosmvp 写道

Quake Wang 写道

meatloaf 写道

有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，

gsub(/&#([0-9]{1,7});|&#x([0-9a-f]{1,6});/i) {
  $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U')
}

---分割线---
发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改...

PS:其实JE 还有个小问题,就是在英文操作系统下,UTF8…… 发帖子时字体很难看，见下图

修改textarea的CSS 加上字体类型就会好的

5 楼 wosmvp 2008-10-09

Quake Wang 写道

meatloaf 写道

有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，

gsub(/&#([0-9]{1,7});|&#x([0-9a-f]{1,6});/i) {
  $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U')
}

---分割线---
发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改...

PS:其实JE 还有个小问题,就是在英文操作系统下,UTF8…… 发帖子时字体很难看，见下图

修改textarea的CSS 加上字体类型就会好的

4 楼 QuakeWang 2008-10-09

meatloaf 写道

有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，

gsub(/&#([0-9]{1,7});|&#x([0-9a-f]{1,6});/i) {
  $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U')
}

---分割线---
发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改...

3 楼 meatloaf 2008-10-09

tangyuanjian 写道

可以用CGI.escape()

你说的完全是错误的，看来你一点都不懂编码方面的知识，而且也不自己动手实践的，你这样乱说，我很反感。

2 楼 tangyuanjian 2008-10-08

可以用CGI.escape(),这个函数是页面传递中文的处理函数！

1 楼 yangzhihuan 2008-10-08

大胆假设,小心求证

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论