`
hellocgc
  • 浏览: 29323 次
  • 性别: Icon_minigender_1
  • 来自: 汕头
社区版块
存档分类
最新评论

【Python】参加淘宝天猫天池大数据比赛的代码解析(一)

阅读更多
最近报名参加了天池大数据比赛,题目是搭建一个推荐系统,我使用的是Python语言,挖掘的第一步是输入原始数据,折腾了很久才把数据按照期望的格式进行输入存储,在这里介绍一下
41 399 131001,58750,195405,23594,131035,43341,92435,18294,43299,43660,86400,25984,59461,91068
46 338 42453,52550,142033,64060,37355,92435,66180,122877,84899,186483,101916,178051,148830,43299,208642
116 396 200256,69355,92435,43341,132321,218736,140701,137354,91068,2110,26749,198110,195405,131001
121 221 19244,2592,77682,183335,18294,131001,154301,156739,25155,40127,195405,37355,44665
166 199 6603,55565,59009,141815,17823,56660,94566,168708,186022,47149,178981,40718,119433,143243
216 627 37355,11054,48817,127829,102013,18928,100780,205795,170954,61410,59606,145333,29836,18136,157099
236 235 198355,92344,92435,128535,165874,37355,104975,69042,202561,218532,103148,13817
246 220 131035,89627,92435,98279,189223,297,11054,116175,56022,78553,164790,86400,195405,34939
281 487 168887,183868,200798,165530,94632,188186,205124,109662,99521,109662,66980,131060,200762

 

  • 处理方法1:首先是在read_csv函数中设定converters参数,将第三列的数据转化成数组进行存储;另外是重新将read_csv获得的DataFrame的第三列进行拆分,重新赋值给新的DataFrame,问题顺利解决
import pandas as pd
def seq_item(s_items):
	# 将商品描述词分列,商品最多的商品描述分词数为33个
	return s_items.split(',')
def read_dim_items(read_rows = None):
	# 读入商品信息表,参数read_rows表示读入的行数,默认是全读
	dim_items = pd.read_table('dim_items\\dim_items.txt',header = None,sep = ' ',converters = {2:seq_item},index_col = [1,0],nrows = read_rows) 
	dim_items = pd.DataFrame(dim_items[2].tolist(),index = dim_items.index)
	return dim_items
  •  处理方法2:利用pandas自带的str.split函数进行拆分并重新赋值给新的df
def read_dim_items(read_rows = None):
	# 读入商品信息表,参数read_rows表示读入的行数,默认是全读
	# 第一列为商品ID(item_id),第二列为商品所属类目ID(cat_id),第三列为商品标题分词后的结果(items)
	dim_items = pd.read_table('dim_items\\dim_items.txt',header = None,sep = ' ',index_col = [1,0],nrows = read_rows)  # ,converters = {2:seq_item}
	dim_items = dim_items[2].str.split(',',expand = True)
	return dim_items
 

 

分享到:
评论

相关推荐

    Python-淘宝天猫商品数据抓取代码和exe都在里面

    【Python-淘宝天猫商品数据抓取代码和exe都在里面】 这个资源主要涵盖了使用Python进行网络爬虫技术,特别是针对淘宝和天猫平台的商品数据抓取。Python作为一种强大的编程语言,因其简洁明了的语法和丰富的库支持,...

    天池大数据竞赛资料(代码和ppt)

    【标题】"天池大数据竞赛资料(代码和ppt)"主要涵盖了两个重要的竞赛主题:移动推荐算法和资金流预测。这些资源是针对阿里云“天池”平台的大数据竞赛,旨在提升参赛者在数据处理、分析和预测能力方面的专业技能。 ...

    python抓取淘宝天猫网页商品详情Demo

    在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...

    python抓取淘宝天猫网页商品详情Demo.zip

    本项目"python抓取淘宝天猫网页商品详情Demo.zip"是一个利用Python进行网络数据抓取的示例,主要涉及到以下几个核心知识点: 1. **网络请求库**:在Python中,我们通常使用如`requests`库来发送HTTP请求,获取网页...

    天池大数据比赛2015.zip

    "天池大数据比赛2015.zip"是一个与2015年阿里巴巴天池大数据竞赛相关的压缩文件。这个比赛是阿里巴巴集团主办的一项旨在推动大数据技术发展和培养数据科学人才的年度盛事。在这个压缩包中,我们可以看到两个文件:一...

    天池大数据竞赛LSTM预测算法分享

    在本项目中,我们主要探讨的是利用大数据和LSTM(Long Short-Term Memory,长短期记忆网络)模型参与天池大数据竞赛,特别是针对a股公司营收的预测问题。以下是相关知识点的详细说明: 1. **大数据**:大数据是指...

    AliTianChi:天池大数据比赛2015

    在这个“AliTianChi:天池大数据比赛2015”的项目中,我们可以推测参赛者们主要使用了Python这一编程语言进行数据处理和模型构建。 Python作为当今数据科学领域的主流工具,其简洁的语法和丰富的库使得它在大数据...

    天池大数据比赛总结.zip

    在大数据领域,天池大数据比赛是一项极具挑战性和影响力的竞赛,旨在推动数据科学的发展,提高参赛者的数据处理、分析和预测能力。"天池大数据比赛总结.zip" 文件包含了参赛项目源码,这为我们提供了深入学习和理解...

    天池大数据比赛练习.zip

    "天池大数据比赛练习.zip" 是一个包含了比赛项目源码的压缩文件,主要针对的是大数据相关的竞赛。在这样的比赛中,参赛者通常需要处理大规模的数据,运用各种数据分析和挖掘技术,解决实际问题。从"天池"这个名字...

    天池大数据穿衣搭配算法比赛.zip

    标题中的“天池大数据穿衣搭配算法比赛”表明这是一个与数据科学和机器学习相关的竞赛,旨在利用大数据分析技术解决穿衣搭配的个性化推荐问题。在这样的比赛中,参赛者通常需要设计和实现一个算法,该算法能够根据...

    天池大数据比赛,贵州智慧交通预测.zip

    在描述中,“天池大数据比赛,贵州智慧交通预测.zip”表明这是一个关于交通流量预测的项目,参赛者需要利用提供的数据集(可能包含在压缩包内)来预测贵州交通状况,如车流量、路况、出行时间等。这需要参赛者具备大...

    天池天池大数据竞赛赛题菜鸟-需求预测与分仓规划

    在“天池天池大数据竞赛赛题菜鸟-需求预测与分仓规划”中,参赛者面临的挑战主要集中在两个核心领域:需求预测和分仓规划。这两个主题在IT行业的供应链管理和数据分析中具有重要的实际应用价值。 首先,我们来讨论...

    基于Python实现的北京市大数据岗位招聘数据分析及可视化展示项目源代码+数据+爬虫(高分项目)

    基于Python实现的北京市大数据岗位招聘数据分析及可视化展示项目源代码+数据+爬虫(高分项目)本项目是一套成熟的大作业项目系统,获取98分,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者...

    基于Python实现的北京市大数据岗位招聘数据分析及可视化展示项目源代码+数据+爬虫

    综上所述,这个项目涵盖了Python编程、网络爬虫、数据处理、数据分析、数据可视化等多个环节,是学习和实践Python在大数据领域应用的一个综合实例。通过参与这样的项目,可以提升数据获取、处理和解读的能力,对从事...

    基于python的CCF大数据比赛参赛源码+项目说明(基于主题的文本情感分析).zip

    基于python的CCF大数据比赛参赛源码+项目说明(基于主题的文本情感分析).zip基于python的CCF大数据比赛参赛源码+项目说明(基于主题的文本情感分析).zip基于python的CCF大数据比赛参赛源码+项目说明(基于主题的...

    Python+Spark+Hadoop大数据基于用户画像电影推荐系统毕业源码 - 副本.zip

    标题中的“Python+Spark+Hadoop大数据基于用户画像电影推荐系统毕业源码”指的是一个使用Python、Apache Spark和Apache Hadoop构建的大数据处理项目,旨在实现一个基于用户画像的电影推荐系统。这个系统可能利用大...

    课程设计基于HTML和Python的新冠疫情时空大数据可视化分析源码+课设报告+数据.zip

    【资源说明】课程设计基于HTML和Python的新冠疫情时空大数据可视化分析源码+课设报告+数据.zip课程设计基于HTML和Python的新冠疫情时空大数据可视化分析源码+课设报告+数据.zip课程设计基于HTML和Python的新冠疫情...

    基于python的CCF-BDCI大数据与计算智能大赛-互联网金融新实体发现算法源码+项目说明(9th).zip

    【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的...基于python的CCF-BDCI大数据与计算智能大赛-互联网金融新实体发现算法源码+项目说明(9th).zip

    Python和HDF5大数据应用

    完整版《Python和HDF5大数据应用》 本书会带你迅速了解使用HDF5对大小从GB至TB的数字数据集进行存档和共享的细节、实践以及陷阱,体验在Python语言中用HDF5存储科学数据。  通过真实世界的例子以及动手练习,你将...

Global site tag (gtag.js) - Google Analytics