精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2010-07-20
holin 写道
我也有一个,用Rails做的。 http://www.jutuan.info 聚团信息网 原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。 呵呵,你这个做得真好:)很漂亮:) |
|
返回顶楼 | |
发表时间:2010-07-21
idning 写道
holin 写道
我也有一个,用Rails做的。 http://www.jutuan.info 聚团信息网 原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。 呵呵,你这个做得真好:)很漂亮:)
也就套了美团的样式,自己也不会做美工,呵呵。
python爬网页相关的代码可否分享一下? |
|
返回顶楼 | |
发表时间:2010-07-21
我也弄了个,用django
http://www.loudixia.com 数据在服务端有个页面脚本控制台,定期采集数据 针对网站有数据采集规则,用正则表达式实现 |
|
返回顶楼 | |
发表时间:2010-07-22
idning 写道 chinaway 写道 yava555 写道 chinaway 写道 请教一下:团购网站的数据怎么自动抓取?
我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。 有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小 解析器有各种规则, 对于普通团购网站: 标题基本上都是<h1></h1>中间的部分, 价格简单的正则式匹配"原价xx元","仅售xx元"得到,还有其它几个规则. 对于图片,我的做法是在html中找到一个size>300*200的图片(先找jpg格式的图片效率要高一些) 对于排在前10名的团购网站,单独写了parser,可以比较精细的解析出地址信息,详细描述。不过这些信息还没弄到界面上来。 3q,其实聚合太多的垃圾团购网也没什么意义! |
|
返回顶楼 | |
发表时间:2011-04-07
lz问下 做团购分类如何获取,比如饮食,美容,美发
|
|
返回顶楼 | |
发表时间:2011-07-01
坐等楼主分享
|
|
返回顶楼 | |