ruby处理中文URL的办法

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 9492 次

锁定老帖子主题：ruby处理中文URL的办法该帖已经被评为良好帖
作者	正文
meatloaf 等级: 性别: 文章: 165 积分: 174 来自: 地狱	发表时间：2008-10-08 相关推荐: ruby/rails中的中文处理 URL原理、URL编码、URL特殊字符、输入URL到页面显示使用libmmseg实现Ruby的中文分词功能 [Ruby] 网页添加文本编辑器 Kindeditor for Ruby on Rails Web开发人员的利器：Ruby on Rails 更多相关推荐有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，一般浏览器都能够自动的处理进行转化，不看Html代码，你根本不知道存在这种转化。但我目前有个需求，需要进行html的解析，并且要和本地目录进行比较，因此就需要在ruby中把这种使用编码点的url字符串转化为字符。比如下面这个url src="./冰酷一夏.files/gif-0268.gif" 一开始，考虑用unpack来做 str = path.gsub(/&#(\d+);/) { \|s\| [$1.to_i(16)].pack("U") } puts str 控制台的编码方式是gbk，这时输出是乱码，尝试进行转码 path = "./冰酷一夏.files/gif-0268.gif" str = path.gsub(/&#(\d+);/) { \|s\| [$1.to_i(16)].pack("U") } puts str require "iconv" puts Iconv.conv("gbk", "utf-8", str) 没想到输出是一样的 ./馉鸱埞饳エ稷灆.files/gif-0268.gif ./馉鸱埞饳エ稷灆.files/gif-0268.gif 忽然想到java里面的做法 //str是通过正则表达式取出的数字，这样做是可以的 (char)Integer.valueof(str).intValue() 但是ruby并不支持unicode的编码点，因此ruby中int类型的to_char方法最大到256，这样也行不通。于是想到用jruby来绕过这个转换的过程 i = Ja::Integer.new(number) c = Ja::Character.new(i.intValue()) Ja::String.valueOf(c) 这个代码是可以运行的了。又过了好几天，忽然又想到问题可能是处在对编码点的理解上，一开始用的是16进制，应该使用十进制的，于是又试了一下，问题解决了 str = path.gsub(/&#(\d+);/) { \|s\| [$1.to_i(10)].pack("U") } puts str require "iconv" puts Iconv.conv("gbk", "utf-8", str) 其实，一开始就应该想到这个url是用十进制表示的编码点的，惯性思维，一看到编码点就直接用16进制了，这是个教训，呵呵。今天把这点经验放上来，希望能帮到同样也在做这个事情的朋友。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

yangzhihuan 等级: 性别: 文章: 225 积分: 283 来自: 广州	发表时间：2008-10-08 大胆假设,小心求证
返回顶楼	回帖地址 0 0 请登录后投票

tangyuanjian 等级: 初级会员性别: 文章: 93 积分: 40 来自: 成都	发表时间：2008-10-08 可以用CGI.escape(),这个函数是页面传递中文的处理函数！
返回顶楼	回帖地址 0 0 请登录后投票

meatloaf 等级: 性别: 文章: 165 积分: 174 来自: 地狱	发表时间：2008-10-09 tangyuanjian 写道可以用CGI.escape() 你说的完全是错误的，看来你一点都不懂编码方面的知识，而且也不自己动手实践的，你这样乱说，我很反感。
返回顶楼	回帖地址 0 0 请登录后投票

QuakeWang 等级: 性别: 文章: 854 积分: 2516 来自: 上海	发表时间：2008-10-09 meatloaf 写道有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，这个不是叫codepoint，它叫html entity，有3种格式： 1. named entity，比如我们常见的用& nbsp ;来表示空格 2. 基于10进制的，就是你文章中说的，比如 & # 12345; 3. 基于16进制的，多了一个x，比如& # x12c3; 补上一段能够同时适用2和3的正则替换，来源 ( http://htmlentities.rubyforge.org/ ) gsub(/&#([0-9]{1,7});\|&#x([0-9a-f]{1,6});/i) { $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U') } ---分割线--- 发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改...
返回顶楼	回帖地址 0 0 请登录后投票

wosmvp 等级: 性别: 文章: 180 积分: 270 来自: 青岛	发表时间：2008-10-09 Quake Wang 写道 meatloaf 写道有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，这个不是叫codepoint，它叫html entity，有3种格式： 1. named entity，比如我们常见的用& nbsp ;来表示空格 2. 基于10进制的，就是你文章中说的，比如 & # 12345; 3. 基于16进制的，多了一个x，比如& # x12c3; 补上一段能够同时适用2和3的正则替换，来源 ( http://htmlentities.rubyforge.org/ ) gsub(/&#([0-9]{1,7});\|&#x([0-9a-f]{1,6});/i) { $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U') } ---分割线--- 发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改... PS:其实JE 还有个小问题,就是在英文操作系统下,UTF8…… 发帖子时字体很难看，见下图修改textarea的CSS 加上字体类型就会好的大小: 190.8 KB 查看图片附件
返回顶楼	回帖地址 0 0 请登录后投票

花花公子等级: 性别: 文章: 552 积分: 418 来自: 上海	发表时间：2008-10-09 是你自己操作系统设置的问题，改language-selector.conf wosmvp 写道 Quake Wang 写道 meatloaf 写道有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，这个不是叫codepoint，它叫html entity，有3种格式： 1. named entity，比如我们常见的用& nbsp ;来表示空格 2. 基于10进制的，就是你文章中说的，比如 & # 12345; 3. 基于16进制的，多了一个x，比如& # x12c3; 补上一段能够同时适用2和3的正则替换，来源 ( http://htmlentities.rubyforge.org/ ) gsub(/&#([0-9]{1,7});\|&#x([0-9a-f]{1,6});/i) { $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U') } ---分割线--- 发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改... PS:其实JE 还有个小问题,就是在英文操作系统下,UTF8…… 发帖子时字体很难看，见下图修改textarea的CSS 加上字体类型就会好的
返回顶楼	回帖地址 0 0 请登录后投票

wosmvp 等级: 性别: 文章: 180 积分: 270 来自: 青岛	发表时间：2008-10-09 花花公子写道是你自己操作系统设置的问题，改language-selector.conf wosmvp 写道 Quake Wang 写道 meatloaf 写道有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，这个不是叫codepoint，它叫html entity，有3种格式： 1. named entity，比如我们常见的用& nbsp ;来表示空格 2. 基于10进制的，就是你文章中说的，比如 & # 12345; 3. 基于16进制的，多了一个x，比如& # x12c3; 补上一段能够同时适用2和3的正则替换，来源 ( http://htmlentities.rubyforge.org/ ) gsub(/&#([0-9]{1,7});\|&#x([0-9a-f]{1,6});/i) { $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U') } ---分割线--- 发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改... PS:其实JE 还有个小问题,就是在英文操作系统下,UTF8…… 发帖子时字体很难看，见下图修改textarea的CSS 加上字体类型就会好的 language-selector.conf 配置文件在那里？可以在网页里修改，我自己写的网站就是通过这样修改的，一切正常
返回顶楼	回帖地址 0 0 请登录后投票

meatloaf 等级: 性别: 文章: 165 积分: 174 来自: 地狱	发表时间：2008-10-09 Quake Wang 写道 meatloaf 写道有些工具，比如浏览器在保存html页面的时候会把其中的中文路径名转化为$#12345的这种形式，这实际上是中文字符的编码点(codepoint)，这个不是叫codepoint，它叫html entity，有3种格式： 1. named entity，比如我们常见的用& nbsp ;来表示空格 2. 基于10进制的，就是你文章中说的，比如 & # 12345; 3. 基于16进制的，多了一个x，比如& # x12c3; 补上一段能够同时适用2和3的正则替换，来源 ( http://htmlentities.rubyforge.org/ ) gsub(/&#([0-9]{1,7});\|&#x([0-9a-f]{1,6});/i) { $1 ? [$1.to_i].pack('U') : [$2.to_i(16)].pack('U') } ---分割线--- 发现一个Bug，JavaEye没有对&这种格式进行替换处理，赶紧去改... 很可惜，你说错了，$#\d+;这种形式的确是html entity没错，html entity中间的数字部分就叫entity number，这其实就是编码点(codepoint)，而且是unicode codepoint，不过它有10进制和16进制两种形式。这部分是我欠考虑的，你给的代码例子比我的全面，谢了。关于编码点和编码字符集的概念在国际化和本地化中是非常重要的概念，看起来即使是在javaeye这种地方，知道的人也不多啊，下面这个url，大家可以参考下http://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references
返回顶楼	回帖地址 0 0 请登录后投票

nail2008 等级: 初级会员性别: 文章: 221 积分: 70 来自: 北京	发表时间：2008-10-10 偶然进入，我是搞java的，ruby一点都不懂。最近乱码问题搞的比较多，乱码这东西是具体情况要具体分析的，不是一个方法走遍全球的。我的感受是，并不是码乱了，而是我们用了错误的方式去解码。比如js的escape我一般是不用的，encodeURIComponent告诉我打的就是Unicode的，我为什么要用escape。服务器端如果是UTF的就好说了，但是如果是GBK的，你看见的就是乱码了。乱码：????°?è?? 乱了不要紧，str = java.net.URLEncoder.encode(str, "ISO-8859-1");先打回%E7%8E%8B%E5%B0%8F%E8%99%8E str = java.net.URLDecoder.decode(str, "UTF-8");再看到的就是“王小虎”。这个方法是准“放之四海皆准”的方式了吧，似乎可以不叼任何容器配置，页面的编码。不过我们不是民工，编程是科学，是艺术。该写filter还是要写的。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 编程语言技术版

跳转论坛: