`
idning
  • 浏览: 138844 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

团购导航网站:http://i-tuan.appspot.com/

阅读更多

用GAE做了一个团购导航网站:

http://i-tuan.appspot.com/

 

做的比较丑,改进中...

 

  • 大小: 305.1 KB
分享到:
评论
14 楼 xiangfei209 2011-04-07  
lz问下 做团购分类如何获取,比如饮食,美容,美发
13 楼 chinaway 2010-07-22  
idning 写道
chinaway 写道
yava555 写道
chinaway 写道
请教一下:团购网站的数据怎么自动抓取?


我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。

有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小


解析器有各种规则,
对于普通团购网站:
标题基本上都是<h1></h1>中间的部分,
价格简单的正则式匹配"原价xx元","仅售xx元"得到,还有其它几个规则.
对于图片,我的做法是在html中找到一个size>300*200的图片(先找jpg格式的图片效率要高一些)

对于排在前10名的团购网站,单独写了parser,可以比较精细的解析出地址信息,详细描述。不过这些信息还没弄到界面上来。


3q,其实聚合太多的垃圾团购网也没什么意义!
12 楼 websms 2010-07-21  
我也弄了个,用django
http://www.loudixia.com
数据在服务端有个页面脚本控制台,定期采集数据
针对网站有数据采集规则,用正则表达式实现
11 楼 holin 2010-07-21  
<div class="quote_title">idning 写道</div>
<div class="quote_div">
<div class="quote_title">holin 写道</div>
<div class="quote_div">
<p>我也有一个,用Rails做的。</p>
<p>http://www.jutuan.info 聚团信息网</p>
<p>原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。</p>
</div>
<p>呵呵,你这个做得真好:)很漂亮:)</p>
</div>
<p> </p>
<p>也就套了美团的样式,自己也不会做美工,呵呵。</p>
<p> </p>
<p>python爬网页相关的代码可否分享一下?<span style="font-size: 11.6667px;"><img src="/images/smiles/icon_biggrin.gif" alt=""></span></p>
10 楼 idning 2010-07-20  
<div class="quote_title">holin 写道</div>
<div class="quote_div">
<p>我也有一个,用Rails做的。</p>
<p>http://www.jutuan.info 聚团信息网</p>
<p>原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。</p>
</div>
<p>呵呵,你这个做得真好:)很漂亮:)</p>
9 楼 holin 2010-07-20  
<p>我也有一个,用Rails做的。</p>
<p>http://www.jutuan.info 聚团信息网</p>
<p>原来也想用Python做部署到GAE上的,但Python不熟,爬内容搞半天没搞定,最后还是用Rails做了,还是Ruby熟练,呵呵。</p>
8 楼 idning 2010-07-20  
chinaway 写道
yava555 写道
chinaway 写道
请教一下:团购网站的数据怎么自动抓取?


我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。

有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小


解析器有各种规则,
对于普通团购网站:
标题基本上都是<h1></h1>中间的部分,
价格简单的正则式匹配"原价xx元","仅售xx元"得到,还有其它几个规则.
对于图片,我的做法是在html中找到一个size>300*200的图片(先找jpg格式的图片效率要高一些)

对于排在前10名的团购网站,单独写了parser,可以比较精细的解析出地址信息,详细描述。不过这些信息还没弄到界面上来。
7 楼 chinaway 2010-07-20  
yava555 写道
chinaway 写道
请教一下:团购网站的数据怎么自动抓取?


我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。

有的团购网站有API可以用,有的就不行了,单独使用爬虫恐怕难度也不小
6 楼 yava555 2010-07-20  
chinaway 写道
请教一下:团购网站的数据怎么自动抓取?


我指的是采用爬虫抓取各个团购网站团购信息(包括图片,描述,价格...),手动更新的话就太麻烦了。
5 楼 chinaway 2010-07-20  
请教一下:团购网站的数据怎么自动抓取?
4 楼 yava555 2010-07-20  
数据是自动抓取的吗?
3 楼 ego008 2010-07-17  
idning 写道
呵呵,webapp做的


webapp性能很低,建议用app-engine-patch
2 楼 idning 2010-07-17  
呵呵,webapp做的
1 楼 fire01312 2010-07-16  
django 作的?? 确实够简陋的!

相关推荐

    爱上团购导航商务源码下载.7z

    爱上团购导航商务源码下载 Http://Www.Adup.Cn/About/Law.Htm 爱的压迫源码演示: Http://Www.Adup.Cn/ 爱上团购 Http://Www.Adup.Cn/Tuan/ 导航论坛 Http://Www.Adup.Cn/Bbs/ 手机上网 Http://Www.Adup.Cn/G/ 爱的...

    Android PopupWindowDemo

    PopupWindow是Android开发中一个非常实用的组件,它允许开发者在屏幕任意位置显示一个浮动窗口。这个窗口可以包含按钮、文本、图片等视图元素,通常用于实现下拉菜单、提示信息或者快捷操作等效果。...

    本地宝团购

    所有数据通过本地宝团购导航网提供的API接口调取。 后台使用 后台地址:http://域名/admin/defualt.asp 帐号密码:jiahai jiahai 自定义API 如果你自已有团购网站,你可以将团购网站的API接口添加进去。 注意:...

    excle汉字转拼音

    excle 汉字转拼音,把下面的...d.Add "Tuan", -12860 d.Add "Tui", -12858 d.Add "Tun", -12852 d.Add "Tuo", -12849 d.Add "Wa", -12838 d.Add "Wai", -12831 d.Add "Wan", -12829 d.Add "Wang", -12812 d.Add "Wei...

    最土团购用团800的一站通程序

    直接把文件烤到跟目录,自己去团800申请KEY,填写到tuan800\lib\config.php 需要用phpmyadmin修改一下USER...&lt;a href="/tuan800/login.php"&gt;&lt;img src="http://s1.tuan800.net/images/partner/128-24.png" &gt;&lt;/a&gt; 就OK了

    SHOPEX仿聚划算团购插件-onecup.cn

    团购首页地址http://您的域名/tuan 团购商品发布-商品管理-商品列表-新增商品-开启团购,需在团购首页显示的再打上“推荐团购”标签。 团购挂件调用,可视化-添加版块-团购挂件,在设置里的标签部分选中“推荐团购...

    仿京东触平板手机网站

    仿京东触平板手机网站 var _locationList=new Array(); //活动模块 _locationList.push('activity/proActList'); _locationList.push('activity/proActWareList'); _locationList.push('activity/...

    rasa_milktea_chatbot:Chatbot with bert chinese model, base on rasa framework(中文聊天机器人,结合bert意图分析,基于rasa框架)

    Rasa Milk Tea Chatbot (chinese) a milk tea waiter chatbot for chinese, if you don't know rasa yet, refer...pip install -r requirements.txt -i https://pypi.tuan.tsinghua.edu.cn/simple quick start start be

    本地宝团购导航网站 v1.2API版

    所有数据通过本地宝团购导航网提供的API接口调取。 三、后台使用 1、后台地址:http://域名/admin/defualt.asp 2、帐号密码:jiahaijiahai 3、自定义API 如果你自已有团购网站,你可以将团购网站的API接口添加进去。...

    Baithu2_DaoNgocLinh_RDHQ_2tuan4.com_verilog_

    【标签】"2tuan4.com verilog" 进一步确认了这是与2tuan4.com网站相关的学习资源,该网站可能是一个在线教育平台,专注于Verilog教学。标签强调了Verilog的重要性,因为它是课程的核心内容。 在提供的压缩包子文件...

    SHOPEX仿聚划算团购插件-diannao.wang

    团购首页地址http://您的域名/tuan 团购商品发布-商品管理-商品列表-新增商品-开启团购,需在团购首页显示的再打上“推荐团购”标签。 团购挂件调用,可视化-添加版块-团购挂件,在设置里的标签部分选中“推荐团购...

    美团cms团购系统 v2.0.rar

    1.后台增加整合团购供应信息平台www.tuan518.com接口 可以直接通过接口发布团购信息 2.修正用户管理数据处理 3.修改商家网址修改问题 4.团购增加自定义起始团购数!让你的团购看起来更有吸引力 5.团购价格和市场...

    ASP.NET整合Discuz!NT资料包

    徐州86516团购导航http://www.86516tuan.com/整合案例以及整合资料包,内涵DiscuzToolkit、Discuz!NT API使用指南、整合Discuz!NT 3.1的webservice接口、整合3.0Beta的注册、注销、登录、删除用户、修改密码等

    ma-di-tuan.rar_数值算法/人工智能_Visual_C++_

    【标题】"ma-di-tuan.rar_数值算法/人工智能_Visual_C++_" 指出这个压缩包包含了一个基于Visual C++编程语言实现的项目,重点在于数值算法和人工智能领域。这通常意味着该程序可能涉及到数值计算、优化问题解决、...

    Discuz X3.2 插件 三瑞团购168 商业版本 V1.001

    Discuz X3.2 插件 三瑞团购168 商业版本 V1.001  参考地址:http://addon.Discuz.com/?@sanree_tuan168.plugin  安装方法简单的不能再简单了  1、将source上传到根目录替换  2、登录后台-应用-插件 安装  ...

    Tuan1tuangou@www.aspjzy.com.rar_myeclipse_tuangou.com_www.tuango

    这是一个关于团购网站源码的压缩包,主要针对的是"第一团购"网站的代码实现,适合开发者进行学习和参考。源码使用了MyEclipse作为开发工具,可以看出这是一套基于.NET平台的Web应用,因为Global.asax是ASP.NET中的一...

    精仿好360导航

    【标题】"精仿好360导航"指的是一个网页设计项目,它的目标是模仿360导航网站的布局、功能和用户体验。360导航是中国知名的互联网入口网站,提供丰富的网页链接、搜索引擎以及各类实用工具,深受用户喜爱。这个精...

    最土模板仿26聚团购模板

    此模板是仿26劵 解压后把文件夹里static和include直接上传根目录覆盖。此模板是在1724基础上测试的,支持最新的1816. 演示地址:http://bbs.0574ngt.com/tuan

    nlp-tokenizer

    用法 : 在lib文件夹中运行以下命令: 对于Linux: java -classpath args4j-2.0.6.jar:jmdn-base.jar:tokenizer.jar main.Main -... Truong Quoc Tuan-K57CA Le Van Giap-K57CA 阮范贾普-K57CA 阮团防-K57CA

    如何定位jsp和command

    - 在Struts配置文件中搜索 `tuan`,从而定位到相关的 JSP 文件。 #### 未优化的URL定位方法 对于未经过任何优化的原始URL,可以直接在Struts配置文件中进行定位: 1. **直接搜索视图或命令**: - 对于 URL `...

Global site tag (gtag.js) - Google Analytics