`
mewleo
  • 浏览: 75102 次
  • 性别: Icon_minigender_1
  • 来自: 济南
最近访客 更多访客>>
社区版块
存档分类
最新评论

收集淘宝店铺资料的小程序

阅读更多

Ruby学习持续进行中

看到业务人员不停的在Ctrl+c与Ctrl+v,还是把固定格式的淘宝搜索结果加入到excel表格中。

还好每人分了几个类目,不过也够浪费体力的了。

我虽然很懒,但也忍不住了,直接叫停,写了点 "日本码" 解决此懒。

ps: 每次打 'rb' ,输入法总出现 '日本' ,不知道是不是ruby故意的,正好拼音 r b。

 

#parseHTML.rb

#endode:utf-8
# 2010.6.13 @ spring by Apanda
# ver= 1.0 r
=begin

程序用途:

	解析淘宝搜索店铺的结果数据并储存为 csv文件
	一次可以截取多个搜索结果地址
	
本工具使用方法:

	1.建立一个list.txt的文件,里面存放淘宝搜索结果页面的地址 如下是商城食品类目搜索结果页:
		http://shopsearch.taobao.com/browse/shop_search.htm?cat=50002766&title=title&nick=nick&filterShopType1=1&s=40&stat=4
		http://shopsearch.taobao.com/browse/shop_search.htm?cat=50002766&title=title&nick=nick&filterShopType1=1&s=40&stat=4
	  将地址每行一个的方式保存好。
	  
	2.将该程序文件parseHTML.rb 和list.txt保存在同一个文件夹中,运行 ruby parseHTML.rb ,在同一文件夹下出现 taobao.csv文件
	
	技巧:按类目分别建立不同的文件夹,这样后续可以从新获取最新的搜索结果。
		taobao
			| - 食品
			| 	  | - list.txt
			|	  | - parseHTML.rb
			|
			| - 服装
			| 	  | - list.txt
			|	  | - parseHTML.rb
			....

=end








require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'iconv'
require 'fastercsv'

def write(data,name)
	FasterCSV.open(name, "w") do |csv|
		data.each{|line|
			csv << line
			#["row", "of", "CSV", "data"]
		}
	end
end	

def conv(str)
	Iconv.iconv("GBK//IGNORE", "UTF-8//IGNORE", str.to_s)
end

def parse(doc)
	shops= Array.new
	doc.css('table#item-matched tbody tr').each do |tr|
				#店铺名称
		shopName=conv tr.css('td.thumb div a')[0]['title']
		#店铺地址
		shopUrl=tr.css('td.thumb div a')[0]['href'].strip
		#主营产品
		desc=conv tr.css('td.thumb dl dd p')[0].css('a').text.collect{|line| line.strip}

		#消费者服务 baozhang
		service=[]
		tr.css('td.thumb dl dd p ins').each do |sevr|
			service << conv(sevr['title'])
		end
		baozhang=service.join(',')
		#宝贝数量
		total = tr.css('p.amount span')[0].content.strip
		#旺旺名称
		wangwang=conv tr.css('p.nick a')[0].content.strip
		#是否商城
		mall=tr.css('ins.service-mall').length > 0 ? "商城" : "个人"
		#地区
		diqu =conv tr.css('td')[3].css('p')[0].content.strip 

		#店铺级别
		level=tr.css('td')[4].css('p')[0]
		if level.css('a').length > 0
				level = conv level.css('a')[0]['title']
			else
				level = conv level.content.strip
		end
		#puts "店铺:#{shopName}\n地区:#{diqu}\n店铺等级:#{mall}/#{level}\n主营:#{desc}\n地址:#{shopUrl}\n宝贝数量:#{total}\n消费者服务:#{baozhang}\n旺旺名称:#{wangwang}\n"
		#puts "----------------------------------------"
		
		shops << [shopName,diqu,wangwang,mall,level,desc,shopUrl,total,baozhang]
	end
	
	shops
	
end

db = Array.new

File.readlines("list.txt").each do |row|
	url=conv(row).to_s
	puts url
	doc = Nokogiri::HTML(open(url))
	db.concat(parse(doc))
end
write(db,"taobao.csv")
puts db.length

 

分享到:
评论

相关推荐

    微信小程序:仿手机淘宝demo下载

    在这个“微信小程序:仿手机淘宝demo下载”项目中,开发者通过模仿手机淘宝的界面设计和功能实现,提供了一个学习和实践微信小程序开发的实例。 1. **微信小程序框架**: 微信小程序基于一套自己的框架,包括WXML...

    淘宝客程序-淘宝客单页店铺

    这个“淘宝客程序-淘宝客单页店铺”是一个专为淘宝客设计的单页面应用程序,其核心功能是帮助用户自主添加淘宝平台的商品,进行个性化展示和推广。 首先,我们需要理解淘宝客的概念。淘宝客是阿里巴巴集团旗下淘宝...

    洗衣店小程序版本2.6.7版,淘宝买的,需要的可以拿去用,我只要分

    小程序是微信推出的一种轻量级的应用形式,它无需下载安装即可使用,减少了用户对手机存储空间的需求。用户通过扫描二维码或在微信内部搜索,就能快速打开并使用小程序,为日常生活提供了极大的便利。 在洗衣店小...

    40+套微信商城小程序源码模板打包下载.rar

    微信商城小程序源码模板是构建在线商业平台的重要工具,尤其对于小型企业和个人创业者而言,它们提供了快速搭建电商平台的便捷途径。这些源码模板通常包含了完整的前端界面和后端逻辑,可以适应不同类型的商家需求,...

    微信、支付宝等9大主流平台小程序调研报告.docx

    2. **阿里系小程序**:包括支付宝小程序、淘宝轻店铺等,旨在构建一个全方位的生活服务平台。 3. **美团小程序**:目前处于起步阶段,尚未形成完整的生态系统。 4. **快应用**:由华为、小米等手机厂商联合推出的轻...

    删掉其他APP,只用微信你能正常生活吗(上).docx

    微信小程序是微信生态中的一个重要组成部分,它是一种无需下载安装即可使用的应用程序,旨在简化用户在手机上的操作,实现“用完即走”的理念。最初,小程序并未设置直接入口,用户需要通过好友分享、扫描二维码或...

    淘宝运营手册

    淘宝运营手册是淘宝seller必备的指南,涵盖了淘宝店铺的所有方面,包括产品了解、市场调研、店铺定位、品牌视觉、产品视觉、营销视觉、活动报名策划、店铺推广、流量来源、数据统计分析和会员关系管理等。...

    淘宝新旺铺仿天猫商城

    淘宝新旺铺仿天猫商城是一款专为淘宝客设计的网站模板集合,旨在帮助淘宝店主们打造出与天猫商城类似的用户体验,从而提升店铺形象和销售业绩。这些模板基于HTML(超文本标记语言)技术构建,HTML是网页开发的基础,...

    甜心100 V6.0 小京东商城解密文件去限制版zip

    微商城,推广二维码,微支付,并且有拼团,砍价,淘宝采集,全球分红,一元云购,小票云打印,虚拟团购,公排,秒杀,众筹,家电安装,附近店铺等实用插件,且不断随市场更新,版本覆盖 PC,手机,公众号,小程序等...

    LaiKe全场景电商系统(含APP与小程序)-PHP

    8、支持电脑PC端、手机端(微信端)、微信小程序、支付宝小程序、头条抖音小程序、百度小程序 LaiKe全场景电商系统功能列表 1. 产品管理(产品分类管理、产品品牌管理、产品列表管理)  2. 订单管理(订单列表、...

    飞天侠淘宝客源码6.0至尊版仿折800最新版,一键采集,修复多种问题,11月20日更新

    12、修复卷皮网采集店铺类型出错问题,原来采集的店铺都显示的的“淘宝网”,已经修复自动识别商品是淘宝还是天猫商城。 13、修复淘牛品U站采集采集图片部分太大不显示,以及店铺类型出错问题,同上。 14、修复采集...

    流量神灯京东淘宝流量收藏互助软件 v1.095.zip

    流量神灯淘宝手机端流量收藏互助软件是一款专业的刷单流量软件。软件以淘宝天猫流量为核心,通过网络互访,共同贡献,共同分享的原理。能够实现利用所用软件用户进行网络互访,共同贡献,共同分享的原理;由于用户的...

    参考资料-电子商务类专业.zip

    手机APP、小程序等移动端应用,使购物更加便捷,推动了电商行业进一步发展。 10. **电子商务发展趋势**:未来,人工智能、虚拟现实、区块链等新兴技术将进一步融入电子商务,推动行业的创新与升级。个性化服务、...

    【2014.11.01再次更新】淘宝客飞天侠6.0最新破解版,自动采集U站和阿里妈妈后台采集,去除所有域名限制解解密核心文件无后门!

    12、修复卷皮网采集店铺类型出错问题,原来采集的店铺都显示的的“淘宝网”,已经修复自动识别商品是淘宝还是天猫商城。 13、修复淘牛品U站采集采集图片部分太大不显示,以及店铺类型出错问题,同上。 14、修复采集...

    上品购物商城源码(电脑板+手机版)

    添加新的商品、查看修改商品、快捷管理商品、快捷商品规格、商品分类管理、快捷商品分类、商品默认设置、商品品牌管理、DIY大类管理、DIY小类管理、批量导入导出商品excel数据、详细内容图片、管理商品图片、淘宝...

    无店铺零售和电子零售

    5. 社交电商:利用社交媒体进行商品推广和销售,如微信小程序、抖音购物车等。 这两种零售模式的发展趋势和特点: 1. 跨界融合:实体店铺与线上平台逐渐融合,形成新零售模式,如线上线下一体化的购物体验。 2. ...

Global site tag (gtag.js) - Google Analytics