`
Suninny
  • 浏览: 38438 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
最近访客 更多访客>>
社区版块
存档分类
最新评论

实践百度加密链接解码并尝试Ruby抓取新歌Top100

阅读更多

 

配合之前 写好了的Decode.rb ,来个爬虫实践。

 

最新代码.tar.gz 打包下载

 

 

#...
text = lambda { |x| unicode.iconv(x.inner_text) }
link = lambda { |x| x[:href] }

whats = open(WHATS) { |f| Hpricot(f) }
singers = (whats/"/html/body/table[3]/tr/td/a[2]").collect &text
songs = (whats/"/html/body/table[3]/tr/td/a[1]")
song_names = songs.collect &text 
song_urls = songs.collect &link

File.open("top100_list.txt", "w") do |os|
  song_urls.each_with_index do |song, i|
    #exit if i == 20 # 这里控制排行榜歌曲数 
    os << "#{i+1}. #{singers[i]} - #{song_names[i]}\n"
    links = open(song){ |f| Hpricot(f) }
    urls = (links/"/html/body/div[2]/table[2]/tr/td[2]/a[1]").collect &link 
    urls[0..1].each do |url| # 这里控制每首歌的链接数
      page = Net::HTTP.get(URI.parse(URI.encode(url)))
      os << decode(unicode.iconv($1)) << "\n" if page =~ /var .="(.*)",J/
    end
    os << "\n"
  end
end
  

Hpricot的解析速度还是不错的。生成的文件内容(片断)如下:

写道
1. 成龙 - 难说再见
http://www.qzone168.com/fd/nszj2008.mp3
http://www.readerstimes.com/bbs/attachments/难说再见.wma

2. 李玖哲 - 别说
http://mp3.khtyut.com/2003-11-6/impurity/mule/2001-7-4/10852.wma
http://tdr518.xbzh.net/blog/UploadFiles/2008-8/826547620.mp3

3. 李宇春 - 梨花香
http://bbs.xuanmirs.net/UpFile/UpAttachment/2008-8/2008819221915.mp3
http://220.179.123.221:8031/Song/200872512124594322.mp3

4. 蔡健雅 - 依赖
http://mp3.ge520.com/20080731/001/M10565/10.Wma
http://www.5290007.cn/pycs/C/2008814498233/450352810.Wma

5. 梁静茹 - 今天情人节
http://mp3data.pizyy.cn:8898/19z/0/tingxingeyyyyqx080821/1/6ce54b8f1f83960b_7.wma
http://lan4.cha44.com/shuju4/7133/7.wma

6. 刘璇 - 出发
http://www.ikala.cn/images/0815/chufa.mp3
http://ent.sdinfo.net/yy/st/images/20080813/14740.mp3

7. 陈奕迅 - 歌颂
http://wma222.8easy.com:5118/wma5/2008/2008-8-19/48748_552188.wma
http://wma222.8easy.com:5118/wma5/2008/2008-8-19/ZWpqaG2VbG1jY2tsNQ$$.wma

8. 刘德华 - 未到伤心处
http://www.lingshengzhan.com/ting/刘德华-未到伤心处.mp3
http://www.lingshengzhan.com/ting/%C1%F5%B5%C2%BB%AA-%CE%B4%B5%BD%C9%CB%D0%C4%B4%A6.mp3

9. 袁泉 - 亚热带巧克力
http://mp3.ge520.com/20080803/001/M10376/3.Wma
http://lanjiao4.cha44.com/shuju4/6998/8.wma

10. 阿信 - 走火入魔
http://creativecommons.org.tw/formoz/people/auly7/auly7-2388.mp3
http://www.brantanus.com/download/public/zhouhuorumo.wma

14. 薛之谦 - 传说
http://www.hmdt.cn/hm_fm103/upfiles/排行榜/音乐排行榜(内地)/传说%20%20薛之谦.mp3
http://image.fotoever.com/PhotoServer01/Blog/Music/1135313/6152008120118AM30981.mp3

15. 梁静茹 - 如果能在一起
http://ting.aitingge.com/09/梁静茹-如果能在一起.Wma
http://s3.mp3-codes.com/747949340.mp3

29. 魏如萱 - 等等等
http://300.com.cn/mp3/魏如萱/泡泡/01.mp3
http://wma.92yaya.com/2008/92yaya_com_wma/2008heji/feizhuliuhuarenph/1/080528.wma


42. 陈奕迅 - 漂亮小姐
http://121.14.157.212:77/aaaa/陈奕迅/漂亮小姐.wma
http://old.q915.com/radio/attachments/discss/Chen/08.mp3

43. 莫文蔚 - 回家的路
http://www.bjtzr.com/zh/write/回家的路莫文蔚.wma
http://bbs.jiashan.gov.cn/music/name/808.wma

68. 古巨基 - 我们的彩虹
http://www.t8t8.com:8088/upload/music188/t8t8_20080531025316140.mp3
http://nnn.7t7t.com//pycs/Z/20086132920095/29203101.wma

69. 萧亚轩 - 之后
http://www.qianxun.com/UploadFiles/Music/576/196/57620080819164809384.wma
http://music.dlmu.net/mp3/x/xiaoyaxuan1/7.Wma

70. 王麟 - 勇敢的梦想
http://media.music.xunlei.com/resource/65/65285ad8c5e431fbe828f18b489becfe.mp3
http://fundown.china.com/music/wanglin/yonggandemengxiang.mp3

95. 品冠 - 现在就想见的人
http://www.longqiaohome.com/downloads/music/黄品源/08.现在就想见的人.mp3
http://www.kldktv.com/xgkbsong/xzjxjdr.wma

99. s.h.e - 让自己亮起来
http://www.ok665.com/mp3/rangzi.wma
http://www.ucoaaa.net.cn/wm510/1210731541.wma

100. js - 你是此生最美的风景
http://www.qianxun.com/UploadFiles/Music/576/196/57620080819005552884.mp3
http://sq.txdnl.com/mwt/j/s/i/j/jsij/playlists/183339/1499529.mp3
 

感兴趣的同学还可以参考这两篇帖子:

 

用Bash抓歌曲(不过我没运行成功)

 

获取百度下载地址的其他方法 (有Java/Python/Bash等)

 

 

分享到:
评论
6 楼 neodoxy 2008-12-02  
楼上的看不懂错误信息么,装gem
gem install hpricot
5 楼 carlosbdw 2008-12-02  
报错了

C:\work\src\topmusic>ruby top100.rb
top100.rb:10:in `require': no such file to load -- hpricot (LoadError)
        from top100.rb:10
4 楼 Suninny 2008-11-07  
racnow 写道

引用00:20厉害,这个时间还在写

什么时候不重要,重要的是有没有状态
3 楼 racnow 2008-11-05  
引用
00:20


厉害,这个时间还在写
2 楼 Suninny 2008-08-30  
用Python提取正常
是open-uri的bug :(
改用net/http,放上修正版。。。
1 楼 Suninny 2008-08-30  
发现了奇怪的现象:抓取的URL有中文乱码,文件名部分却正常。

27. 袁泉 - 宝宝睡
http://www.songdiy.com/UpLoadFile/涓娄紶鏂囦欢/200882333043641.mp3

30. 郑源 - 擦肩而过
http://hhhm.tjb8.cn/mp3/z10/%E8%BF%87%E6%9C%9F%E7%9A%84%E6%83%85%E4%B9%A6.mp3
http://hhhm.tjb8.cn/mp3/z10/%D0%D2%B8%A3%C1%B5%C8%CB.mp3
http://www.yiyinwang.com/UpLoadFile/200873116804431.mp3
http://v8.dj787.com/镟村姝屾洸璇疯繘dj787.com/wma/200808/无情的温柔%20郑源.wma

相关推荐

    易语言百度Links解码

    本主题涉及的是“百度Links解码”,这通常是指对百度搜索引擎返回的一些特殊链接(Links)进行解密的过程。百度Links可能是为了保护搜索结果的隐私或者防止滥用而采用的一种加密方式。解码这些Links有助于开发者或...

    加密JS解码工具

    加密JS解码工具,复制进去,按下按钮,就可以了

    无驱型加密狗复制工具之数据抓取

    无驱型加密狗复制工具是一种专门用于处理无需驱动程序的USB加密硬件设备的数据提取和复制的软件工具。这种工具主要用于解决在没有驱动支持或者驱动安装困难的情况下,对加密狗中的数据进行读取和备份的问题。在IT...

    加密解码.加密解码工具实用

    加密解码工具

    PHP加密文件解码工具,98%成功解密

    然而,值得注意的是,虽然解码工具可能有98%的成功率,但这并不意味着所有加密的文件都能被成功解密,因为加密技术的复杂性和不断更新,以及可能的多层加密策略。 PHP加密文件解码工具的工作原理通常涉及逆向工程,...

    加密货币市场数据抓取:使用爬虫技术的方法与实践

    本文详细介绍了爬虫在加密货币市场数据抓取中的应用,包括数据抓取、处理、分析和可视化的方法。通过这些实践,可以为市场参与者提供有价值的洞察和决策支持。 使用爬虫技术抓取加密货币市场数据是一种高效的数据...

    433解码.rar_433_433如何加密_433模块_433码值_433解码

    433MHz无线通信在物联网和智能家居领域广泛...综上所述,"433解码.rar"文件提供了深入理解433MHz无线通信解码和加密的宝贵资源,包括源代码和实践建议。对于从事相关领域的工程师来说,这将是一个有价值的参考资料。

    hcs301滚动码加密解码工具软件

    hcs301滚动码加密解码工具软件 hcs301滚动码加密解码工具软件

    office 文档加密解码

    所有的office 文档加密后,数秒种之内解密,如WORD,EXECL ACCESS等文件。

    ruby-使用ruby实现的算法之加密解密算法.zip

    在Ruby编程语言中,加密和解密是网络安全和数据保护的重要方面。本资源包"ruby-使用ruby实现的算法之加密解密算法.zip"显然包含了关于如何在Ruby中实现加密和解密算法的实例和代码。下面将详细介绍Ruby中常用的加密...

    Ruby-LockboxRuby和Rails的文件加密

    Ruby-Lockbox是一款针对Ruby和Rails应用的安全库,主要用于实现文件和数据的加密。它提供了简单易用的接口,让开发者能够轻松地在应用程序中集成高级加密标准(AES)和其他密码学算法,确保敏感信息的安全性。 Ruby...

    深思S4加密狗之数据抓取

    深思S4加密狗之数据抓取 仅仅是抓取工具

    ASP加密编码解码解密软件

    asp加密破解ASP加密编码解码解密软件程序.

    testbess_解码源码加密_试试_

    总的来说,“testbess_解码源码加密_试试_”是一个实用的学习资源,对于想要了解和实践RC4加密解码的人来说,提供了宝贵的实践经验。但同时,也要认识到RC4的局限性和安全性问题,以便在实际项目中做出更为安全的...

    CTF编码工具brainfuck解密支持Base加密解密、字符加密解密、Key加密解密,能够帮助用户实现多种类型的CTF编码加密

    CTF编码工具支持Base加密解密、字符加密解密、Key加密解密,能够帮助用户实现多种类型的CTF编码加密解密操作,此外还提供了进制转换、字频分析、哈希计算、时间-时间戳、字符全大/小写、字符反转、Hex_str反转等功能...

    在线编码解码加密解密工具

    网页展示,部分数据后台传输,后台使用spring boot ,类似在线网页加密解密,使用idea编译器,版本2018,版本似乎没什么关系。下载导入基本可以用。程序页面访问链接:http://localhost:8090/ecdc/index

    C#百度最新登录源码2015-07-04 添加Rsa加密

    本资源“C#百度最新登录源码2015-07-04 添加Rsa加密”是一个特定时期的C#代码示例,旨在帮助开发者实现对百度账号的模拟登录,并且包含了Rsa加密技术的集成,这样就无需依赖JavaScript文件进行加密操作。 首先,让...

    银联8583 mac,位图,明文,加密,解码 计算工具

    这个"银联8583 mac,位图,明文,加密,解码 计算工具"显然是为了帮助开发者或系统集成人员在处理银联8583报文时进行校验、编码和解码等操作。 1. **8583报文结构**:8583报文由多个字段组成,每个字段都有特定的...

    对称加密:使用OpenSSL的Ruby项目的对称加密

    对称加密 透明地加密ActiveRecord,Mongoid和MongoMapper属性。 加密配置文件中的密码。 加密整个静态文件。介绍任何想要满足PCI规范的项目都必须确保在飞行中和静止时对数据进行加密。 在许多其他要求中,还必须对...

    Ruby版微信小程序对称加密数据解密算法wechat_aes_sample_ruby-master.zip

    总之,"wechat_aes_sample_ruby-master.zip"项目为Ruby开发者提供了一个实践微信小程序对称加密数据解密的实例,帮助他们理解并实现安全的数据通信。通过学习和使用这个库,开发者可以更好地掌握AES加密技术,并将其...

Global site tag (gtag.js) - Google Analytics