`
chencang
  • 浏览: 421943 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

是使用淘宝API获取数据好,还是利用爬虫去抓取数据好呢

阅读更多

RT

目前抓了淘宝的200多万家 的店铺地址(URL)了,不知道算不算流氓爬虫。估计爬了他们 95%的店铺地址 ,仅供参考。

 

发现一个搞笑的店铺,整个店铺里都是卖避孕套之类的,分类到了数码相机类里面去了,哈哈

目前不知道taobao会不会把一个店铺分到多个类中,如何会分到多个类中的话,我这数值还要缩减,自己要来排重一下。

分享到:
评论
6 楼 felicitia 2013-12-08  
需要登录的数据能抓取到吗?模拟淘宝的登录感觉太难了。。。
5 楼 exceedly 2012-10-26  
淘宝有访问其他店铺产品信息的API吗...我怎么没有看到- -
4 楼 chencang 2010-01-17  
njaueducn 写道
抓取这些URL干嘛呢?

根据店铺的url入口来抓取他们的商品,再做一些分析
3 楼 njaueducn 2009-08-26  
抓取这些URL干嘛呢?
2 楼 chencang 2009-07-14  
meishujun1986 写道
你好,你用爬虫抓取到了淘宝的数据?我用淘宝的API调用他的商品信息的时候反正是没有数据返回的,如果可以的话能把你的爬虫程序发给我借鉴一下吗?我的邮箱是meishujun1986@163.com 谢谢了

meishujun1986你好,淘宝API调用是能获得数据的,可能你没有仔细看清API所需的格式、参数等条件,导致了你没有获得返回数据。
我的淘宝的爬虫程序其实就是一个抓取器,发送几个http请求,然后拿到页面来分析就OK了,很简单的,所以建议你自己写一下吧。因为程序整体尚未成型,所以拿不出手,见谅!
1 楼 meishujun1986 2009-07-12  
你好,你用爬虫抓取到了淘宝的数据?我用淘宝的API调用他的商品信息的时候反正是没有数据返回的,如果可以的话能把你的爬虫程序发给我借鉴一下吗?我的邮箱是meishujun1986@163.com 谢谢了

相关推荐

    抓取淘宝页面数据

    总结来说,抓取淘宝页面数据涉及的知识点包括:HTTP请求与响应、HTML和JavaScript解析、网页自动化工具(Selenium、Puppeteer)、反爬策略与应对、API接口利用、数据存储与处理,以及相关的法律法规遵循。...

    京东商品数据抓取

    在IT行业中,数据抓取是一项重要的技能,尤其...总之,“京东商品数据抓取”项目涉及到了网络爬虫、API接口利用、数据解析存储、异常处理等多个IT领域的知识点,对于提升开发者的数据获取和分析能力具有很高的价值。

    python抓取淘宝天猫网页商品详情Demo.zip

    本项目"python抓取淘宝天猫网页商品详情Demo.zip"是一个利用Python进行网络数据抓取的示例,主要涉及到以下几个核心知识点: 1. **网络请求库**:在Python中,我们通常使用如`requests`库来发送HTTP请求,获取网页...

    最新淘宝商品类目数据.sql

    然而,获取这类数据往往需要耗费大量时间编写爬虫程序,或者通过官方的API进行数据抓取。这些方法不仅耗时耗力,而且可能因为技术或权限限制而难以实现。 “最新淘宝商品类目数据.sql”文件的出现,极大地方便了...

    抓取淘宝IP库程序

    总的来说,"抓取淘宝IP库程序"是一个结合了网络请求、数据解析、数据处理和文件操作的Python应用程序,旨在有效且合规地从淘宝API中提取IP信息。对于有相关需求的开发者或者研究人员来说,这是一个有价值的工具,但...

    java爬取各大平台价格

    Java爬虫技术是一种用于自动化获取网页数据的编程方式,它能够帮助我们从互联网上抓取大量有用的信息。在这个项目中,我们使用了几个关键的Java库来实现对多个电商平台的价格爬取,包括HtmlUnit、Jsoup和HttpClient...

    获取淘宝单品_taobao_获取_

    这个任务主要涉及使用网络爬虫技术或者API接口来抓取或请求淘宝平台上的商品详情。淘宝作为一个大型电商平台,提供了丰富的商品数据,包括但不限于商品名称、价格、销量、评价等,这些信息对于商家分析市场、优化...

    taobao_crawled-master_商城_taobao_淘宝爬虫_淘宝商城商品信息爬虫_源码.zip

    8. **API接口使用**:除了网页爬取,开发者可能还利用了淘宝提供的官方API接口获取数据,如淘宝开放平台(Taobao Open Platform, TOP)。通过API,可以更规范且高效地获取特定信息。 9. **代码结构与模块化**:一个...

    淘宝网络爬虫.rar

    为此,可以使用如Selenium、Pyppeteer等工具模拟浏览器行为,或者直接利用API接口获取数据。HTML解析则可以借助BeautifulSoup、lxml等库,找到商品名称、价格、评价等关键信息所在的HTML标签。 4. **数据存储**:...

    抓取淘宝指定店铺宝贝销量

    标题中的“抓取淘宝指定店铺宝贝销量”是一个关于数据分析和网络爬虫的议题,主要涉及在淘宝或天猫平台上获取特定店铺商品销售数据的技术方法。在这个过程中,开发者或研究人员通常会编写程序来自动化这个过程,以便...

    京东_淘宝_拼多多_条形码 爬虫 .zip

    【标题】"京东_淘宝_拼多多_条形码 爬虫 .zip" 提供的信息表明,这是一个关于从京东、淘宝和拼多多这三个电商平台抓取条形码相关数据的爬虫项目。条形码爬虫通常用于收集商品信息,如价格、库存、销量等,为数据分析...

    python网络爬虫基础教学.rar

    Python网络爬虫是一种用于自动化获取网页数据的技术,它在数据挖掘、数据分析等领域有着广泛的应用。本教程涵盖了Python爬虫的基础教学,旨在帮助初学者快速掌握爬虫的基本技能。以下是根据提供的压缩包文件名,整理...

    Java编写的淘宝爬虫程序

    Java编写的淘宝爬虫程序是数据分析师和自然语言处理专家获取电商数据的重要工具。这个程序利用了Java的强大功能,能够自动化地抓取淘宝网站上的商品信息,为后续的数据分析提供丰富的原始资料。以下是对该爬虫程序...

    网络爬虫_tmall_TmallUS_淘宝_python爬虫_

    在IT行业中,网络爬虫是一种广泛应用的技术,用于自动地抓取互联网上的信息。在这个特定的案例中,我们关注的是一个针对“天猫”(Tmall)的Python爬虫项目,特别是针对“TmallUS”(天猫美国站)的店铺位置信息。这...

    基于selenium的淘宝爬虫系统.zip

    本项目“基于Selenium的淘宝爬虫系统”利用Python编程语言,结合Selenium库,设计了一套能够绕过淘宝网站反爬策略的数据抓取系统。下面将详细介绍Selenium库以及如何运用它来实现淘宝商品数据的自动化采集。 **...

    006_爬虫_httpdswwwsds006com_淘宝举报_

    在IT领域,网络爬虫是一种自动化程序,用于从互联网上抓取大量数据,通常用于数据分析、市场研究或网站性能评估。本案例中的“006_爬虫_httpdswwwsds006com_淘宝举报”主题聚焦于利用Python的urllib库来编写一个针对...

    爬虫学习笔记.pdf

    爬虫是网络数据采集的一种技术,它按照一定的规则,自动抓取互联网信息的程序或脚本。爬虫的学习笔记涉及了多种技术点和工具的使用,包括Python编程语言、BeautifulSoup库、正则表达式、re库以及Scrapy框架等。 ...

    完整版精品Python网络爬虫教程 数据采集 信息提取课程 11-Scrapy爬虫基本使用(共32页).pptx

    Python网络爬虫是一种...通过学习,你将能够构建自己的网络爬虫,实现高效、有针对性的数据抓取,并且理解如何利用生成器优化性能。这个全面的教程对于想要入门或者提升Python爬虫技能的学习者来说是一份宝贵的资源。

    MFC网页抓取

    而“MFC网页抓取”则是在MFC框架下实现的一种网络数据获取技术,主要用于从互联网上自动提取信息,即我们常说的“网页爬虫”。 网页抓取通常分为静态网页抓取和动态网页抓取。静态网页抓取针对的是HTML格式的网页,...

    Python淘宝、京东、拼多多、京喜自动化爬虫实战代码,完整代码可以直接使用.rar

    理解API接口文档,利用requests或专门的库如tushare(针对淘宝)调用API获取数据。 12. **数据清洗与预处理**:爬取的数据往往包含噪声,需要清洗和预处理,如去除空格、转换数据类型、处理缺失值等。 13. **数据...

Global site tag (gtag.js) - Google Analytics