Nokogiri 中文乱码的几种情况

夜鸣猪

浏览: 2081469 次
性别:
来自: NYC

最近访客更多访客>>

闷油瓶12

lzyfn123

WangJiaX

zsjyzx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

RubyOnRails

Ruby CSS SQL HTML 浏览器

更新2011/11/15
有些不是IE上的了

如果不确定目标是什么编码，Ruby1.9开始可以用String类内置的encoding来得到编码。

	puts Iconv.iconv("UTF-8", doc.to_s.encoding.to_s, doc)

使用//IGNORE忽略无法转换的字符

	Iconv.iconv("UTF-8//IGNORE", "GBK//IGNORE", doc)

参考，老宋rubyer中文ruby力量，必须支持

在文件头指定程序编码
在***.rb头上添加,注意：一定要在第一行，中间添加无效

	#coding: utf-8

这个是用来处理代码编码的，就是代码中的中文
－－－－－－－－－－－－－－－华丽丽的历史小分割－－－－－－－－－－－－－－－－－－－－－－－－
以上只是个人的一些总结，如果你有其它方法，不妨发出来一起分享

简单汇总，都是JE上的，就是弄到一起

第一种情况，open的网站参数有中文

url="http://book.douban.com/subject_search?search_text=SQL语言艺术=1001"
Nokogiri::HTML(open(url))

就会报错，因为浏览器打包给服务器发送参数的时候是经过编码的，所以我们也要给汉字经过一次编码，只需在这两句中间加上一句就可以了

url=URI.escape(url)

这样 rul 字符串就被编码成这样：sql%E8%AF%AD%E8%A8%80%E8%89%BA%E6%9C%AF就没问题了
注意：上边的编码是吧一个汉字转换成三个字节语 -》%E8%AF%AD（看百分号就知道到了）如果你要抓取的网站编码是GBK 那么要把它转换成一个汉字对应成 2个字节，%E8%AF 。

来自这里

第二种情况，自己网站是utf-8，open的网站是gb2312有中文

doc = Nokogiri::HTML.parse(open("http://www.soso.cn/"), nil, "gb2312")  
@links = doc.css("a")

出自虎炮回答

第三种是需要 Iconv转换

目标网页是gb2312编码,有些页面能采回来,有些又提示有无效的字符编码
Ruby代码

doc = Nokogiri::HTML(open(url))

改为

doc = Iconv.iconv("UTF-8","GB2312",Nokogiri::HTML(open(url)))

url = "http://www.hishibo.cn"  
doc = Nokogiri::HTML(open(url))  
doc.css("h3").each do |c|  
  puts Iconv.iconv("GBK//IGNORE", "UTF-8//IGNORE", c.content)    
end

参考论坛

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))   
  
doc.css('h3.r a.l').each do |link|   
   puts link.content   
end  

doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))

doc.css('h3.r a.l').each do |link|
   puts link.content
end

换种方式实现：

doc.xpath('//h3/a[@class="l"]').each do |link|   
    puts link.content   
end  

doc.xpath('//h3/a[@class="l"]').each do |link|
     puts link.content
end

我们还可以这样来写：

doc.search('h3.r a.l', '//h3/a[@class="l"]').each do |link|   
     puts link.content   
end  

doc.search('h3.r a.l', '//h3/a[@class="l"]').each do |link|
      puts link.content
end

编码问题需要另行转换。

结果如下所示：

引用

Aaron Patterson (tenderlove) on Twitter
Tender Lovemaking
Force M.D. - Tender Love Lyrics
Force MDs - Tender Love
Jordan Knight - Tender Love
Alicia Keys- Tender Love(live)
tenderlove's nokogiri at master - GitHub
Tender Love and Care on Flickr - Photo Sharing!
USHER - TENDER LOVE LYRICS
Love Quotes - Tender Love Quotes

分享到：

Rails 如何实现通过登录IP确定城市功能 | ubuntu 安装nokogiri 报错 libxslt is mi ...

2010-08-24 01:04
浏览 4287
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论