- 浏览: 755177 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
lgh1992314:
a offset: 26b offset: 24c offse ...
java jvm字节占用空间分析 -
ls0609:
语音实现在线听书http://blog.csdn.net/ls ...
Android 语音输入API使用 -
wangli61289:
http://viralpatel-net-tutorials ...
Android 语音输入API使用 -
zxjlwt:
学习了素人派http://surenpi.com
velocity宏加载顺序 -
tt5753:
谢啦........
Lucene的IndexWriter初始化时的LockObtainFailedException的解决方法
# -*- coding: ISO-8859-1 -*- require 'open-uri' require 'uri' html = open('http://www.265.com/').read(2000000) END_CHARS = %{.,'?!:;} puts URI.extract(html, ['http']).collect { |u| END_CHARS.index(u[-1]) ? u.chop : u }
运行结果:
http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd http://www.w3.org/1999/xhtml http://www.google.com.hk/search?hl=zh-CN&q=%E7%94%B5%E5%BD%B1&btnG=Google+%E6%90%9C%E7%B4%A2&meta=&aq=f&oq=&client=aff-avalanche http://google.com.hk/webhp?hl=zh-cn&tab=Aw http://www.google.cn/imghp?hl=zh-cn&tab=Ai http://video.google.cn/?hl=zh-cn&tab=Av http://ditu.google.cn/maps?hl=zh-cn&tab=Al http://news.google.cn/nwshp?hl=zh-cn&tab=An http://www.google.cn/music?hl=zh-cn&tab=AU http://www.google.cn/prdhp?hl=zh-cn&tab=Af http://www.google.com.hk/intl/zh-CN/options/ http://www.google.cn/music?client=aff-avalanche&channel=textlink http://www.265.com/images/googlemusic.gif http://www.google.cn/search?hl=zh-CN&client=aff-avalanche&forid=1&channel=logo&q= http://www.google.com.hk/search?hl=zh-CN&q= http://www.365rili.com/ http://www.boc.cn/cn/common/whpj.html http://www.google.com.hk/finance?client=aff-a&hl=zh-CN http://jipiao.kuxun.cn/?fromid=Kgbw-S1134381-T1137511 http://huoche.kuxun.cn/?fromid=Kgbw-S1134381-T1076521 http://www.lottery.gov.cn/ http://www.zhcw.com/ http://www.google.com.hk/search?hl=zh-CN&q=%E7%94%B5%E5%BD%B1&btnG=Google+%E6%90%9C%E7%B4%A2&meta=&aq=f&oq=&client=aff-avalanche http://www.google.com.hk/dictionary http://www.google.com.hk/intl/zh-CN/help/features.html http://www.google.com.hk/intl/zh-CN/mobile/maps/ http://www.chashouji.com/ http://product.cheshi.com/price.html http://fund.eastmoney.com/fund.html http://www.google.com.hk/search?hl=zh-CN&q= http://www.google.com.hk/search?hl=zh-CN&q= http://download.tech.qq.com/soft/17/21/index.shtml http://www.google.com.hk/search?hl=zh-CN&newwindow=1&safe=strict&q=%E8%B0%B7%E6%AD%8C%E9%87%91%E5%B1%B1%E8%AF%8D%E9%9C%B8&aq=f&aqi=&aql=&oq=&gs_rfai= http://www.uusee.tv/ http://earth.google.com/intl/zh-CN/ http://www.360.cn http://www.kuaikuai.cn/h/down/kk_game/?channel=57_1 http://www.flashget.com/cn/download.htm http://www.ppstream.com/download.html http://pstatic.xunlei.com/about/product/down_xl5.htm http://www.google.com/ime/pinyin/ http://toolbar.google.com/T4/intl/zh-CN/ http://www.kuwo.cn/ http://www.rising.com.cn/ http://www.maxthon.cn/ http://www.stockstar.com/cfg http://www.QVOD.com http://feixin.10086.cn/download/ http://www.gw.com.cn/download/level1/index.htm http://www.google.com.hk/search?q=%E6%9A%B4%E9%A3%8E%E5%BD%B1%E9%9F%B33.6+%E6%99%BA%E8%83%BD%E9%AB%98%E6%B8%85%E7%89%88&hl=zh-CN&source=billboard_site&cd=12200098&cad=5&ie=utf8 http://www.google.com/chrome?hl=zh-cn http://www.mosh.cn/beijing http://www.wooha.com/?WT.mc_id=new265 http://www.qunar.com/ http://www.abang.com/ http://www.yihaodian.com/product/index.do?tracker_type=9&tracker_u=1949358 http://www.izhufu.com/ http://www.docin.com http://bai.sohu.com http://www.daodao.com/?m=12347 http://www.gong1chuang1.com http://www.mpdaogou.com/ http://www.aibaimm.cn/ http://www.bankrate.com.cn/ http://www.5925car.com/ http://www.miui.com/ http://www.trends.com.cn/ http://www.m18.com/ http://www.0-6.com/ http://www.chilema.cn/default.aspx http://www.51mike.com/ http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#609 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#352 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1134 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1371 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#963 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1372 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1373 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1437 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1374 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#355 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1438 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#957 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1417 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1376 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#958 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1378 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1135 http://www.265.com/Youxi_Wangyou/Remen_Youxizhuanti_All.html#1377 http://www.265.com/Youxi_Wangyou/index.html#196 http://www.265.com/Youxi_Wangyou/index.html#195 http://www.google.com.hk/webhp?client=aff-avalanche http://www.baidu.com/ http://www.qq.com/ http://www.163.com/ http://cn.msn.com/ http://www.tom.com/ http://www.china.com/ http://www.sina.com.cn/ http://www.sohu.com/ http://cn.yahoo.com/ http://www.51job.com/ http://www.renren.com/ http://www.mop.com/ http://www.chinamobile.com/ http://www.ifeng.com/ http://www.eastmoney.com/ http://www.people.com.cn/ http://www.xinhuanet.com/ http://www.ctrip.com/ http://www.360.cn/ http://www.soufun.com/ http://www.cctv.com/ http://www.zaobao.com/ http://www.xunlei.com/ http://58.com/ http://www.icbc.com.cn/ http://www.kaixin001.com/ http://www.4399.com/ http://www.jrj.com.cn/ http://www.hexun.com/ http://www.gov.cn/ http://china.alibaba.com/?cosite=265dh&location=alihomepage_dh http://www.taobao.com/ http://www.zol.com.cn http://www.zhcw.com/ http://www.autohome.com.cn/ http://www.youku.com http://www.tudou.com/ http://www.jiayuan.com/ http://www.dangdang.com/ http://www.tianya.cn/ http://www.51.com/?fromsite=265_1 http://news.google.com.hk/news/search?pz=1&cf=all&ned=cn&hl=zh-CN&q=%E6%B2%BB%E5%A0%B5&source=265.com', http://news.google.com.hk/news/more?pz=1&cf=all&ned=cn&cf=all&ncl=dVZ221HiynUgGMMdPA7YVmSj8eZRM&source=265.com', http://news.google.com.hk/news/more?pz=1&cf=all&ned=cn&cf=all&ncl=dlDTKEYmgUS-GKMcA1iendnuqffNM&source=265.com', http://blogsearch.google.com.hk/blogsearch/story?hl=zh-cn&num=10&topic=e&bcid=1651226638&bc_lang=zh-CN&source=265.com', http://blogsearch.google.com.hk/blogsearch/story?hl=zh-cn&topic=fe&bcid=1651764651&bc_lang=zh-CN&source=265.com', http://blogsearch.google.com.hk/blogsearch/story?hl=zh-cn&num=10&topic=fe&bcid=1651435361&bc_lang=zh-CN&source=265.com', http://blogsearch.google.com.hk/blogsearch/story?hl=zh-cn&num=10&topic=fe&bcid=1650340552&bc_lang=zh-CN&source=265.com', http://blogsearch.google.com.hk/blogsearch/story?hl=zh-cn&num=10&topic=fe&bcid=1651458816&bc_lang=zh-CN&source=265.com', http://blogsearch.google.com.hk/blogsearch/story?hl=zh-cn&topic=l&bcid=1651766213&bc_lang=zh-CN&source=265.com', http://news.google.com.hk/news/more?pz=1&cf=all&ned=cn&cf=all&ncl=dZkub0JsW0461gMDeDdtdN4qp-pMM&source=265.com', http://news.google.com.hk/news/search?pz=1&cf=all&ned=cn&hl=zh-CN&q=%E5%85%AC%E5%8A%A1%E5%91%98%E5%B7%A5%E8%B5%84&source=265.com', http://news.google.com.hk/news/more?pz=1&cf=all&ned=cn&cf=all&ncl=dQhOS-yAc2hsqbMejJ2S82D9XA0CM&source=265.com', http://news.google.com.hk/news/search?pz=1&cf=all&ned=cn&hl=zh-CN&q=%E5%BC%A0%E9%9B%A8%E7%BB%AE&source=265.com', http://www.17173.com http://games.sina.com.cn/ http://www.duowan.com/ http://game.zol.com.cn http://tl.sohu.com/ http://aion.sdo.com/project/index/index.htm http://t.mop.com http://www.onlinedown.net/ http://www.skycn.com/ http://www.crsky.com http://xiazai.zol.com.cn http://tech.sina.com.cn/down/ http://www.mydown.com/ http://www.qidian.com/ http://www.readnovel.com/ http://www.xxsy.net/ http://www.hongxiu.com/ http://www.jjwxc.net/ http://book.sina.com.cn/ http://www.xs8.cn/ http://military.china.com/zh_cn/ http://mil.news.sina.com.cn/ http://www.tiexue.net/ http://mil.huanqiu.com/ http://www.xinhuanet.com/mil/ http://junshi.xilu.com/ http://sports.sina.com.cn/ http://sports.sohu.com/ http://sports.163.com/ http://sports.tom.com/ http://china.nba.com/ http://www.hoopchina.com/ http://www.zhibo8.com/ http://www.google.cn/music/homepage?client=aff-avalanche http://www.1ting.com/ http://www.haoting.com/ http://www.qq163.com/ http://www.aiting.com http://www.520music.com/ http://youku.com http://tudou.com http://www.ku6.com/ http://www.6.cn http://www.joy.cn/ http://video.sina.com.cn/ http://tv.sohu.com/ http://www.google.com.hk/finance?client=aff-a&hl=zh-CN http://www.jrj.com.cn/ http://eastmoney.com/ http://www.stockstar.com/ http://www.cnfol.com/ http://hexun.com/ http://finance.qq.com/ http://people.com.cn/ http://xinhuanet.com/ http://www.chinanews.com.cn/ http://news.sina.com.cn/ http://news.google.com.hk/news?ned=cn&client=aff-avalanche http://www.china.com.cn http://news.ifeng.com http://www.tianya.cn http://www.qihoo.com http://www.xici.net http://www.daqi.com http://www.dianping.com http://dzh.mop.com http://laiba.tianya.cn http://blog.sina.com.cn/ http://www.bokee.com/ http://blog.163.com/ http://blog.sohu.com/ http://hi.baidu.com http://qzone.qq.com/ http://www.jiayuan.com/ http://www.marry5.com/ http://www.baihe.com/ http://www.zhenai.com/ http://www.ipart.cn/ http://www.wealink.com/ http://www.myspace.cn/ http://www.lol99.com/ http://www.4399.com/ http://www.7k7k.com/ http://www.51mole.com/ http://www.yx007.com/ http://www.3839.com/ http://www.xiaoyouxi.com/ http://www.91wan.com/ http://mail.163.com/ http://mail.cn.yahoo.com http://mail.sohu.com http://www.hotmail.com/ http://www.gmail.com/ http://www.126.com/ http://mail.sina.com.cn/ http://www.39.net/ http://www.xywy.com/ http://www.haodf.com/ http://health.sohu.com/ http://www.fx120.net/ http://www.fh21.com.cn/ http://www.jxdyf.com/ http://www.pclady.com.cn http://eladies.sina.com.cn/ http://women.sohu.com/ http://lady.163.com/ http://www.lady8844.com/ http://www.zdface.com/ http://www.yoka.com/ http://www.icbc.com.cn/index.jsp http://www.boc.cn/ http://www.ccb.com/portal/cn/home/index.html http://www.abchina.com/ http://www.bankcomm.com/ http://www.cmbchina.com/ http://www.cib.com.cn/ http://finance.sina.com.cn/fund/ http://fund.jrj.com.cn/ http://www.1234567.com.cn/ http://www.chinaamc.com/ http://www.jsfund.cn/ http://www.gffunds.com.cn/ http://autohome.com.cn/ http://www.pcauto.com.cn/ http://www.xcar.com.cn/ http:///www.chinacars.com http://www.cheshi.com/ http://www.bitauto.com/ http://www.che168.com/ http://www.51job.com/ http://zhaopin.com/ http://chinahr.com/ http://www.yingjiesheng.com/ http://www.cjol.com/ http://www.528.com.cn/ http://taobao.com/ http://union.360buy.com/union_default.aspx?union_Id=163 http://www.amazon.cn/ http://www.dangdang.com/ http://www.google.com.hk/products?client=aff-avalanche http://www.newegg.com.cn?cm_mmc=265com-_-265com-_-265com-_-1110 http://58.com http://www.55bbs.com/ http://www.anjuke.com/ http://www.koubei.com/ http://www.ci123.com/ http://www.yaolan.com/ http://www.aibangtuan.com/ http://house.sina.com.cn/ http://www.google.com.hk/webhp?client=aff-avalanche http://www.baidu.com/ http://one.cn.yahoo.com/ http://ditu.google.com/maps?client=aff-avalanche http://www.google.com.hk/products?client=aff-avalanche http://www.google.cn/music?client=aff-avalanche http://video.google.com.hk/?client=aff-avalanche http://images.google.com.hk/images?client=aff-avalanche http://news.google.com.hk/nwshp?client=aff-avalanche http://www.265.com/');return(false) http://www.265.com http://www.google.cn/intl/zh-CN/about.html http://www.265.com http://www.miibeian.gov.cn/
发表评论
-
awk常用命令汇总
2013-06-19 09:28 2940#删除temp文件的重复行 awk '!($0 in ... -
dig命令详解
2013-06-06 12:28 1281原文链接:http://www.javaarch.net/ ... -
lsof 命令详解
2013-06-06 12:28 1239原文链接:http://www.javaarch.net/ ... -
Wget (Linux File Downloader)使用详解
2013-06-06 12:28 4963原文链接:http://www.javaarch.net/ ... -
几个有用的unix命令快捷键
2013-06-02 11:10 1374原文链接:http://www.javaarch.net/j ... -
accesslog或者cookie'log的shell常用分析脚本
2013-03-28 21:56 1477#统计apache cookie log中访问频率最高的20 ... -
ruby on rails做的一个类似极客头条的网站
2013-03-27 21:33 1251完全是学习ruby on rails来做的一个demo,还是 ... -
awk编程基本使用示例
2012-09-11 22:18 1410对于每一行,如果第三列大于0,则打印第一列,第二列*第三 ... -
ruby对象学习示例
2010-12-28 19:21 956class Person attr_writer:inf ... -
jython安装和使用
2009-10-29 12:50 25961.从http://www.jython.org/Proje ...
相关推荐
它的主要目的是帮助开发者高效地从网页上抓取和解析结构化的数据。Wombat以其简洁的Domain Specific Language(DSL)著称,允许用户以优雅的方式定义爬虫规则,使得代码更加易读、易写。 在Ruby开发中,Web爬虫是...
例如,从页面中选取所有图片链接: ```ruby doc_html.css('#comments p img').each do |item_img| puts item_img[:src] CommonHelper.download_img(item_img[:src]) end ``` - **循环遍历**:使用 `each` 方法...
`for`循环用于迭代页面,`Nokogiri::HTML(open(site_url+'/share/comment-page-'+index_page.to_s))`这一行代码用Open-URI打开URL,并使用Nokogiri解析HTML内容。 接着,`doc_html.css("#comments p img")`这段代码...
2. **实现**:在Ruby中,可以使用标准的文件I/O操作读取文件,然后通过正则表达式或其他字符串处理方法解析内容,构建出规则结构。 3. **使用场景**:对于网站管理员,解析器可以帮助检查`robots.txt`的正确性;对于...
要显示页面上的所有链接,我们需要解析HTML文档并提取所有的`<a>`标签。这可以通过多种方式实现: 1. **使用浏览器的开发者工具**:大多数现代浏览器如Chrome、Firefox都内置了开发者工具,其中的Elements面板可以...
Ruby编写的网络蜘蛛,也称为Web爬虫,是一种自动化程序,用于遍历互联网并抓取网页内容。在编程世界中,Ruby以其简洁、易读的语法而受到许多开发者的青睐,尤其是在构建网络爬虫这样的任务上。Ruby拥有丰富的库和...
3. 数据解析:解析返回的JSON数据,提取媒体URL和其他相关信息。 4. 文件下载:利用Ruby的内置或第三方库(如Open-uri或HTTParty)下载媒体文件。 5. 存储管理:将下载的文件保存到本地,并可能进行重命名或组织到...
Ruby爬虫可以高效地抓取网页内容,处理HTML和XML文档,为后续的分析和处理提供数据源。 2. 数据解析:Ruby的JSON和XML解析库强大,便于解析网页结构,提取关键信息。 3. 异步处理:Ruby的EventMachine或Celluloid...
在实际应用中,Mechanize通常与其他Ruby库结合使用,如Nokogiri进行更精细的HTML解析,或者CSV、YAML等库来存储和处理抓取的数据。此外,还可以使用如Selenium这样的库进行更高级的浏览器控制,以处理JavaScript渲染...
- 抓取过程中可能会遇到网络问题、权限错误或页面结构变化等情况,因此良好的错误处理机制和日志记录非常重要。通过记录日志,可以追踪和分析程序运行中的问题。 7. **图片存储管理**: - 抓取下来的图片需要妥善...
通过这个“ruby-scraping”项目,学生们将有机会学习到上述这些核心概念,并将它们应用到实际的网页抓取任务中。这不仅有助于提升他们的编程技能,也使他们能更好地理解和利用Web上的公开数据。
用法:gem install wombat抓取页面:最简单的使用Wombat的方法是调用Wombat.crawl并将其传递给Wombat Web抓取工具以及优雅的DSL,该DSL可以分析网页中的结构化数据。 用法:gem install wombat抓取页面:使用Wombat...
5. **元数据获取**:工具可能还能够提取页面的元数据,如标题、描述、关键词等,这对于SEO优化和内容分析有一定的参考价值。 在使用 `urlosint` 时,开发者或研究人员可以利用其强大的命令行接口(CLI)进行交互...
网络蜘蛛,也称为Web爬虫或网页抓取程序,是用于自动浏览互联网并抓取网页内容的软件工具。它们在IT行业中扮演着重要的角色,特别是在搜索引擎优化、数据分析、市场研究和自动化信息收集等方面。以下是对"网络蜘蛛...
网络爬虫的工作原理通常是从一个或几个初始网页的URL开始,抓取这些页面上的URL,并将其加入待抓取队列,然后爬虫根据一定的停止条件不断重复这个过程。网络爬虫的应用非常广泛,既可以用于搜索引擎,也可以用于垂直...
网络爬虫的工作原理是从一个或多个初始的URL出发,获取这些页面上的所有链接,然后再访问这些链接所指向的页面,循环往复,直到满足停止条件为止。这个过程类似于蜘蛛通过自己的网获取食物一样,因此得名“爬虫”。 ...
网页抓取,也称为网络爬虫或数据抓取,是...通过这个项目,开发者可以了解机械化的基本用法,并掌握网页抓取的基础技能。对于那些想要从网页中获取数据,构建数据分析系统或者自动化任务的人来说,这是一个很好的起点。