`
ppooooll
  • 浏览: 47012 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

ruby访问网页(处理中文url)

阅读更多
  1 require 'open-uri'
  2 require 'net/http'
  3 require 'iconv'
  4 require 'uri'
  5
  6 src1_file = "place_file.txt"
  7 src2_file = "things_file.txt"
  8 save_file = open("key_word_rank_baidu.txt","w")
  9 max_num = '100'
10
11 File.open(src1_file).readlines.each do |place|
12   File.open(src2_file).readlines.each do |thing|
13     enc_pl = URI.escape(Iconv.conv('gbk','utf-8',place))
14     enc_th = URI.escape(Iconv.conv('gbk','utf-8',thing))
15     query = enc_pl.to_s.chomp+"+"+enc_th.to_s.chomp
16     url='http://www.baidu.com/s?wd='+query+'&rn='+max_num
17     target=open(url).read.scan(/<font\scolor=#008000>.*?<\/font>/)
18     puts target
19     rank = 0
20     if target != nil
21       for val in target
22         if (val =~ /<font\scolor=#008000>.*?\s[0-9]+K\s.*?<\/font>/) != nil
23           rank += 1
24           if (val =~ /xxxxx/) != nil
25             save_file.puts val
26             save_file.puts query
27             save_file.puts rank.to_s
28             break
29           end
30         end
31       end
32     end
33   end
34 end
35
36 email_to = "xxx@gmail.com"
37 file = "key_word_rank.txt"
38
39 sendmail_cmd = "cat #{file} | mailx -s daodaorank #{email_to}"
40 pipe = IO.popen(sendmail_cmd)
分享到:
评论

相关推荐

    ror中文资料

    **Ruby on Rails(简称RoR)中文资料** Ruby on Rails(RoR)是一个基于Ruby编程语言的开源Web应用框架,遵循MVC(Model-View-Controller)架构模式,旨在简化Web开发过程,提高开发效率。RoR强调“约定优于配置”...

    网络爬虫-Python和数据分析

    3. **处理中文网页编码问题**:由于中文网页可能使用不同的编码格式,如GBK、UTF-8等,因此在抓取过程中需要正确识别并转换编码格式,以避免乱码问题。 4. **遵守网络道德**:为了不影响网站正常运行,应当适当设置...

    网络爬虫-Python和数据分析.pdf

    在处理中文网页时,编码问题是一个常见挑战。由于互联网上存在多种编码标准,爬虫可能遇到乱码问题。解决这类问题的关键在于正确识别和转换编码。Python提供了处理编码转换的函数,确保数据能够正确读取和存储。 ...

    网络爬虫—python和数据分析

    相对而言,脚本语言如Perl、Python、Java、Ruby更受欢迎,因为它们简单易学,对于文本处理和网页内容提取功能强大,虽然在效率方面可能不及C和C++。例如,Perl语言在爬虫历史上有悠久的应用记录,并且有着丰富的书籍...

    网络爬虫-Python和数据分析(中文)

    - 网页搜集:爬虫从给定的URL开始抓取网页。 - 建立索引:对抓取的内容进行索引以便后续检索。 - 查询排序:根据用户的查询请求返回相关性排序的结果。 #### 二、网络爬虫的技术选型 **常见编程语言对比:** - **C...

    HTML部分标签属性

    - `&lt;ruby&gt;`, `&lt;rt&gt;`, `&lt;rp&gt;`:用于创建中文拼音注释。 - `&lt;sub&gt;`:创建下标文本。 - `&lt;samp&gt;`:用于展示计算机代码样例。 - `&lt;code&gt;`:表示计算机代码或原始码。 - `&lt;var&gt;`:标记变量或变数。 - `&lt;dfn&gt;`:表示...

    java开源包1

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包11

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包2

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包3

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包6

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包5

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包10

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包4

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包8

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包7

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包9

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

    java开源包101

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...

Global site tag (gtag.js) - Google Analytics