论坛首页 编程语言技术论坛

团购导航网站:http://i-tuan.appspot.com/

浏览 11447 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-07-20  
holin 写道

我也有一个,用Rails做的。

http://www.jutuan.info 聚团信息网

原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。

呵呵,你这个做得真好:)很漂亮:)

0 请登录后投票
   发表时间:2010-07-21  
idning 写道
holin 写道

我也有一个,用Rails做的。

http://www.jutuan.info 聚团信息网

原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。

呵呵,你这个做得真好:)很漂亮:)

 

也就套了美团的样式,自己也不会做美工,呵呵。

 

python爬网页相关的代码可否分享一下?

0 请登录后投票
   发表时间:2010-07-21  
我也弄了个,用django
http://www.loudixia.com
数据在服务端有个页面脚本控制台,定期采集数据
针对网站有数据采集规则,用正则表达式实现
0 请登录后投票
   发表时间:2010-07-22  
idning 写道
chinaway 写道
yava555 写道
chinaway 写道
请教一下:团购网站的数据怎么自动抓取?


我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。

有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小


解析器有各种规则,
对于普通团购网站:
标题基本上都是<h1></h1>中间的部分,
价格简单的正则式匹配"原价xx元","仅售xx元"得到,还有其它几个规则.
对于图片,我的做法是在html中找到一个size>300*200的图片(先找jpg格式的图片效率要高一些)

对于排在前10名的团购网站,单独写了parser,可以比较精细的解析出地址信息,详细描述。不过这些信息还没弄到界面上来。


3q,其实聚合太多的垃圾团购网也没什么意义!
0 请登录后投票
   发表时间:2011-04-07  
lz问下 做团购分类如何获取,比如饮食,美容,美发
0 请登录后投票
   发表时间:2011-07-01  
坐等楼主分享
0 请登录后投票
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics