1 require 'open-uri'
2 require 'net/http'
3 require 'iconv'
4 require 'uri'
5
6 src1_file = "place_file.txt"
7 src2_file = "things_file.txt"
8 save_file = open("key_word_rank_baidu.txt","w")
9 max_num = '100'
10
11 File.open(src1_file).readlines.each do |place|
12 File.open(src2_file).readlines.each do |thing|
13 enc_pl = URI.escape(Iconv.conv('gbk','utf-8',place))
14 enc_th = URI.escape(Iconv.conv('gbk','utf-8',thing))
15 query = enc_pl.to_s.chomp+"+"+enc_th.to_s.chomp
16 url='http://www.baidu.com/s?wd='+query+'&rn='+max_num
17 target=open(url).read.scan(/<font\scolor=#008000>.*?<\/font>/)
18 puts target
19 rank = 0
20 if target != nil
21 for val in target
22 if (val =~ /<font\scolor=#008000>.*?\s[0-9]+K\s.*?<\/font>/) != nil
23 rank += 1
24 if (val =~ /xxxxx/) != nil
25 save_file.puts val
26 save_file.puts query
27 save_file.puts rank.to_s
28 break
29 end
30 end
31 end
32 end
33 end
34 end
35
36 email_to = "xxx@gmail.com"
37 file = "key_word_rank.txt"
38
39 sendmail_cmd = "cat #{file} | mailx -s daodaorank #{email_to}"
40 pipe = IO.popen(sendmail_cmd)
分享到:
相关推荐
**Ruby on Rails(简称RoR)中文资料** Ruby on Rails(RoR)是一个基于Ruby编程语言的开源Web应用框架,遵循MVC(Model-View-Controller)架构模式,旨在简化Web开发过程,提高开发效率。RoR强调“约定优于配置”...
3. **处理中文网页编码问题**:由于中文网页可能使用不同的编码格式,如GBK、UTF-8等,因此在抓取过程中需要正确识别并转换编码格式,以避免乱码问题。 4. **遵守网络道德**:为了不影响网站正常运行,应当适当设置...
在处理中文网页时,编码问题是一个常见挑战。由于互联网上存在多种编码标准,爬虫可能遇到乱码问题。解决这类问题的关键在于正确识别和转换编码。Python提供了处理编码转换的函数,确保数据能够正确读取和存储。 ...
相对而言,脚本语言如Perl、Python、Java、Ruby更受欢迎,因为它们简单易学,对于文本处理和网页内容提取功能强大,虽然在效率方面可能不及C和C++。例如,Perl语言在爬虫历史上有悠久的应用记录,并且有着丰富的书籍...
- 网页搜集:爬虫从给定的URL开始抓取网页。 - 建立索引:对抓取的内容进行索引以便后续检索。 - 查询排序:根据用户的查询请求返回相关性排序的结果。 #### 二、网络爬虫的技术选型 **常见编程语言对比:** - **C...
- `<ruby>`, `<rt>`, `<rp>`:用于创建中文拼音注释。 - `<sub>`:创建下标文本。 - `<samp>`:用于展示计算机代码样例。 - `<code>`:表示计算机代码或原始码。 - `<var>`:标记变量或变数。 - `<dfn>`:表示...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...
BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 WebSocket协议的Java实现 WebSocket4J WebSocket4...