精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2010-07-04
最后修改:2010-07-12
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2010-07-16
django 作的?? 确实够简陋的!
|
|
返回顶楼 | |
发表时间:2010-07-17
呵呵,webapp做的
|
|
返回顶楼 | |
发表时间:2010-07-17
idning 写道 呵呵,webapp做的
webapp性能很低,建议用app-engine-patch |
|
返回顶楼 | |
发表时间:2010-07-20
数据是自动抓取的吗?
|
|
返回顶楼 | |
发表时间:2010-07-20
请教一下:团购网站的数据怎么自动抓取?
|
|
返回顶楼 | |
发表时间:2010-07-20
chinaway 写道 请教一下:团购网站的数据怎么自动抓取?
我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。 |
|
返回顶楼 | |
发表时间:2010-07-20
yava555 写道 chinaway 写道 请教一下:团购网站的数据怎么自动抓取?
我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。 有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小 |
|
返回顶楼 | |
发表时间:2010-07-20
chinaway 写道 yava555 写道 chinaway 写道 请教一下:团购网站的数据怎么自动抓取? 我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。 有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小 解析器有各种规则, 对于普通团购网站: 标题基本上都是<h1></h1>中间的部分, 价格简单的正则式匹配"原价xx元","仅售xx元"得到,还有其它几个规则. 对于图片,我的做法是在html中找到一个size>300*200的图片(先找jpg格式的图片效率要高一些) 对于排在前10名的团购网站,单独写了parser,可以比较精细的解析出地址信息,详细描述。不过这些信息还没弄到界面上来。 |
|
返回顶楼 | |
发表时间:2010-07-20
我也有一个,用Rails做的。 http://www.jutuan.info 聚团信息网 原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。 |
|
返回顶楼 | |