背景
双十一购物狂欢节马上又要到来了,最近各种关于双十一的爆品购物列表在网上层出不穷。如果是网购老司机,一定清楚通常一件商品会有很多维度的标签来展示,比如一个鞋子,它的商品描述可能会是这样的“韩都少女英伦风系带马丁靴女磨砂真皮厚底休闲短靴”。如果是一个包,那么它的商品描述可能是“天天特价包包2016新款秋冬斜挎包韩版手提包流苏贝壳包女包单肩包”。
每个产品的描述都包含非常多的维度,可能是时间、产地、款式等等,如何按照特定的维度将数以万计的产品进行归类,往往是电商平台最头痛的问题。这里面最大的挑战是如何获取每种商品的维度由哪些标签组成,如果可以通过算法自动学习出例如 地点相关的标签有“日本”、“福建”、“韩国”等词语,那么可以快速的构建标签归类体系,本文将借助PAI平台的文本分析功能,实现一版简单的商品标签自动归类系统。
数据说明
数据是在网上直接下载并且整理的一份2016双十一购物清单,一共2千多个商品描述,每一行代表一款商品的标签聚合,如下图:
我们把这份数据导入PAI进行处理,具体数据上传方式可以查阅PAI的官方文档:https://help.aliyun.com/product/30347.html
实验说明
数据上传完成后,通过拖拽PAI的组件,可以生成如下实验逻辑图,每一步的具体功能已经标注:
下面分模块说明下每个部分的具体功能:
1.上传数据并分词
将数据上传,由shopping_data代表底层数据存储,然后通过分词组件对数据分词,分词是NLP的基础操作,这里不多介绍。
2.增加序号列
因为上传的数据只有一个字段,通过增加序号列为每个数据增加主键,方便接下来的计算,处理后数据如下图:
3.统计词频
展示的是每一个商品中出现的各种词语的个数。
4.生成词向量
使用的是word2vector这个算法,这个算法可以将每个词按照意义在向量维度展开,这个词向量有两层含义。
向量距离近的两个词他们的真实含义会比较相近,比如在我们的数据中,“新加坡”和“日本”都表示产品的产地,那么这两个词的向量距离会比较近。不同词之间的距离差值也是有意义的,比如“北京”是“中国”的首都,“巴黎”是“法国”的首都,在训练量足够的情况下。|中国|-|北京|=|法国|-|巴黎|
经过word2vector,每个词被映射到百维空间上,生成结果如下图展示:
5.词向量聚类
现在已经产生了词向量,接下来只需要计算出哪些词的向量距离比较近,就可以实现按照意义将标签词归类。这里采用kmeans算法来自动归类,聚类结果展示的是每个词属于哪个聚类簇:
结果验证
最后通过SQL组件,在聚类簇中随意挑选一个类别出来,检验下是否将同一类别的标签进行了自动归类,这里选用第10组聚类簇。
看一下第10组的结果:
通过结果中的“日本”、“俄罗斯”、“韩国”、“云南”、“新疆”、“台湾”等词可以发现系统自动将一些跟地理相关的标签进行了归类,但是里面混入了“男士内裤”、“坚果”等明显与类别不符合的标签,这个很有可能是因为训练样本数量不足所造成的,如果训练样本足够大,那么标签聚类结果会非常准确。
其它
本文案例已经集成到了PAI首页的模板,请注册使用PAI:https://data.aliyun.com/product/learn在模板中点击创建即可使用,包含逻辑以及数据:
原文链接:https://yq.aliyun.com/articles/229432
相关推荐
机器学习实现心肌梗死的自动检测 机器学习是当前数据科学和人工智能的核心技术之一,能够对大量数据进行处理和分析,以实现自动检测和分类。心肌梗死是心脏疾病的一种,通过机器学习技术,可以实现心肌梗死的自动...
机器学习实现方法 机器学习的基本实现过程包括数据采集、特征工程、标签标注、模型训练和模型应用等步骤。在无线网络优化领域中,机器学习方法可以通过CNN、RNN、DBN等深度模型来实现。 机器学习在网络优化中的...
机器学习公式推导与代码实现 很多同学在学习机器学习的时候,理论粗略看一遍之后就直接上手编程了,非常值得表扬。但是他不是真正的上 手写算法,而是去直接调用 sklearn 这样的 package,这就不大妥当了。笔者不是...
机器学习是通过让计算机从数据中自动学习规律和模式,从而实现自我改进的一种方法。它主要分为监督学习、无监督学习和半监督学习三类。监督学习包括了线性回归、逻辑回归、支持向量机、决策树、随机森林等,它们依赖...
在标题“机器学习算法的java实现”下,我们主要关注的是如何用Java语言来实现和实验机器学习算法。文档提到了使用Java进行机器学习实验和实现的重要性,强调了在学习Java实现之前,对机器学习的基本理论有所了解是...
机器学习期末复习题库 机器学习是人工智能领域中的一门重要学科,涉及到各种算法和技术,以下是机器学习期末复习题库的详细解析: 监督学习和无监督学习 监督学习是指在有标签的数据集上训练模型,以便在未来的...
4. 机器学习研究如何让计算机自动获取知识和技能,实现自我完善,以此达到智能。在人工智能中,这被称为机器学习,而非专家系统、神经网络或模式识别。 5. 机器学习的应用广泛,例如麦克风阵列技术用于远场语音交互...
未来,随着传感器技术和计算能力的提升,机器学习将在自动驾驶、智能家居等领域发挥更大的作用。同时,随着物联网技术的普及,机器学习将助力智能家居设备实现更加智能化和个性化的功能。在工业制造领域,机器学习也...
机器学习是计算机科学的一个分支,它致力于通过让计算机系统学习数据中的模式来改善其性能,而无需显式编程。这门课程的课件是大牛根据8年的实战经验精心总结的,涵盖了理论与实践的结合,旨在帮助学习者深入理解和...
机器学习可以应用于信道建模中,以实现信道的自动学习和优化。具体来说,机器学习可以应用于信道多径分簇、参数估计、模型的构造及信道的场景识别等方面。 信道多径分簇是信道建模中一个非常重要的步骤,机器学习...
机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度学习机器学习 深度...
在本项目中,我们主要探讨的是利用机器学习技术来预测零售商品的销售情况。这个案例是基于Python的Spark编程环境pyspark实现的,目的是通过分析历史销售数据,构建七种不同的回归预测模型,以便更准确地预测未来的...
机器学习是一种人工智能领域的核心方法,它允许计算机程序通过经验学习并改进其性能。根据Tom Mitchell的定义,机器学习涉及的任务T、性能度量P和经验E,其中程序在任务上的性能随着经验的增加而提高。在实际应用中...
在本文的上下文中,“机器学习”、“商品自动分类”、“多项式贝叶斯分类模型”、“Python”均为关键概念,分别指向了机器学习的研究领域、解决的实际问题、所使用的分类算法以及实现该算法的编程语言。 文章的研究...
例如,机器学习算法可以用于麻醉电子病历系统的开发,实现麻醉Electronic Health Record(EHR)的自动化记录和分析。机器学习算法还可以用于麻醉领域的个性化医疗,根据患者的特征和医疗记录,提供个性化的治疗方案...
"基于机器学习的自动阅卷系统的设计与实现" 本文介绍了一种基于机器学习的自动阅卷系统的设计与实现,该系统旨在解决传统考试中教师阅卷的困难和不公平的问题。系统通过机器学习和图像识别技术实现自动阅卷的功能,...
机器学习是指在计算机科学中,使用算法和统计模型来实现自动化的数据分析和预测的技术。机器学习可以分为有导师学习、无导师学习和半监督学习三种。有导师学习是指在数据集中的每个样本都有标签,而无导师学习是指...
无监督学习是指在没有任何标签或反馈的情况下,学习一个模型,能够自动地对数据进行分类或聚类。强化学习是指学习一个模型,能够通过试验和错误来学习如何进行决策或控制。 机器学习的应用非常广泛,包括自然语言...
机器学习(Machine Learning, ML)是一种应用人工智能(AI)领域的科学技术,它使得计算机系统能够从数据中自动学习和改进,而无需显式编程。在机器学习的过程中,算法会通过识别和挖掘数据中的模式来构建一个模型,...