`

挖掘网站数据价值——大规模离线数据的分析处理应用

 
阅读更多


作者:baiyuzhong,发布于2012-2-29


为什么我们使用搜索引擎时,不同的用户搜索同样的关键词看到的广告却不同?为什么我们到电子商务网站购物时,每次浏览同样的商品时都可以得到不同的商品推荐?作为网站服务的开发者,你有没有想过,你所拥有的数据蕴含着怎样的价值?当你准备对自己的网站数据进行深入分析时,是否曾面对着成百上千的数据不知如何下手?

如果上面的问题会让你连连点头,那么请跟随我们,展开一段数据分析之旅。希望沿途的见闻,会让你在下次进行数据挖掘操作时,更加得心应手。

借用一下本刊前面的一篇文章——《借助OTS快速构建LBS服务》中的故事。假设你利用OTS构建了一个很不错的LBS网站,公司业务蒸蒸日上,积累了大量的活跃用户,还拥有了北京地区大部分餐馆的物理信息和用户评价信息;如果你的广告业务也发展得很好,说不定你的公司已经收支平衡,并且小有盈余。可以说,这时的你已不满足于仅仅为用户提供餐馆信息,而且希望能够利用你拥有的数据为客户创造更大的价值。

对了,在开始前,我们也要介绍一下本次旅行的交通工具:阿里云开放数据处理服务(Open Data Processing Service,简称ODPS)。ODPS是构建在大规模分布式计算系统上的海量数据处理服务,以REST API的形式支持描述性查询语言SQL的数据处理,适用于海量数据统计、数据模型、数据挖掘、数据商业智能等诸多互联网应用。

一个简单的数据分析示例

你拥有的数据可以支持很多复杂精彩的分析任务,我们从最简单的一个开始:希望利用所有用户的点评数据计算餐馆的综合评分,进而统计“北京最受欢迎的十大餐馆”。由于这个榜单相对固定,我们可以每天重新计算一次,看是否有黑马杀入。

如果你的业务发展得比上文描述的还要好,那么你此刻可能会有点烦恼了:假设你已有8000万用户,按10%的活跃用户平均每人30条点评,其他90%的用户平均每人2条点评计算,用户点评数据约有4亿条;如果每条点评信息平均0.5KB,那么点评数据总计有200GB。利用传统数据库来完成数据分析会显得力不从心;而大数据处理的商业解决方案极为昂贵,开源的解决方案又需要非常专业的开发和运维知识。在这种场景下,就要靠ODPS大显身手了。

第一个数据分析的SQL

表1 RestaurantInfo表存储餐馆的数据

让我们回顾一下你的原始数据,它们都已经存储在OTS的表格中了(为了ODPS的计算需要,表的schema略有修改),如表1和表2所示。

表2 RestaurantComment表存储用户对餐馆的评价数据

为了使用ODPS服务,你还需要到ODPS的管理中心申请数据存储所需的存储空间、数据分析所需的计算资源、用于确保数据和计算安全的AccessID和AccessKey【注:ODPS使用这一加密对来保证开发者的数据、作业和工作流不能被别人访问,因此开发者需要小心保管AccessId和AccessKey,不要对任何人泄露】的安全加密对,以及开发所需的SDK安装包(什么,你还没有注册?别担心,阿里云支持统一用户登录,你在使用OTS时已经注册过,此时仅仅需要开通ODPS服务就可以了)。

在ODPS的SDK安装包中,提供了一个命令行工具odpscmd【注:随ODPS SDK一同发布的命令行操作工具,其安装过程参见http://odps.aliyun.com】。odpscmd封装了ODPS的REST API,支持ODPS服务的绝大部分功能,可以帮助你尽快了解并熟悉ODPS的常用操作。SQL的构造流程分为以下五步。

    用odpscmd来配置一下你的安全加密对(odpscmd要求所有命令以“;”结尾):

$ odpscmd SET ACCESSID=AccessID ACCEESSKEY=AccessKey;

    将OTS中的两张表的schema和数据复制到ODPS中(以下以大写字母表示关键字,斜体字母表示用户自定义标识符;odpscmd对所有关键词和标识符不区分大小写):

$ odpscmd CREATE TABLE RestaurantInfo AS SELECT * FROM OTS.RestaurantInfo;

$ odpscmd CREATE TABLE RestaurantComment AS SELECT * FROM OTS.RestaurantComment;

在HangMode【注:odpscmd处理SQL命令的一种模式,与NoneHangMode相对】模式下,odpscmd会同步串行处理提交的一系列SQL命令,直到最后一个SQL命令结束,结果表数据生成后才会返回。根据表中的数据量多少和运算的复杂性,等待时间可能会是几秒钟到几个小时不等。当OTS中的源表数据量很大、数据被分片保存时,ODPS服务会启动多个任务并发读取OTS中的数据,以缩短数据复制时间。存储在ODPS中的数据也会分片保存,以便后续的数据分析操作可以快速地读取数据。

    你还需要在ODPS中创建一张新表TopTenRestaurants,存储十大餐馆的统计信息,如表3所示。

表3 TopTenRestaurants表存储十大餐馆的统计数据

建表命令为:

$ odpscmd CREATE TABLE IF NOT EXISTS TopTenRestauransts (DistrictID INT, RestaurantID INT, Name STRING, Address STRING, PhonenNmber STRING, Location STRING, Category STRING, ScoreStat INT, CostStat INT);

    我们将用户对每个餐馆评分的平均值定义为该餐馆的口碑,取评分最高的前十名餐馆作为“北京最受欢迎的十大餐馆”。构造相应的SQL语句后,在odpscmd中提交:

$ odpscmd INSERT OVERWRITE TABLE TopTenRestaurants SELECT a.DistrictID, a.RestaurantID, a.Name, a.Address, a.PhoneNumber, a.Location, a.Category, b.ScoreStat, b.CostStat FROM RestaurantInfo a JOIN (SELECT DistrictID, RestaurantID, AVG(Score) AS ScoreStat, AVG(Cost) AS CostStat FROM RestaurantComment GROUP BY DistrictID, RestaurantID) b ON a.DistrictID = b. DistrictID AND a.RestaurantID = b.RestaurantID ORDER BY b.ScoreStat DESC LIMIT 10;

    SQL语句运算完成后,我们可以查阅表中的结果数据:

$ odpscmd READ TABLE TopTenRestaurants;

在ODPS中计算的结果数据需要被外部应用访问,我们可以借助于OTS的实时查询功能。假设在OTS中利用相同的schema也创建了TopTenRestaurants表,你可以通过下面的命令将ODPS的数据推送到OTS中:

$ odpscmd EXPORT DATA TO OTS TopTenRestaurants FROM TABLE TopTenRestaurants;

自动定期分析

至此,我们已完成一次数据分析操作:从OTS导入原始数据到ODPS中,进行数据分析操作,再将结果数据导出到OTS供查询。但这个过程是手工完成的,如果希望“十大餐馆”的数据每天更新一次,那么有没有什么办法可以自动完成上面的操作呢?

我们将上面的流程整理一下,形成一个SQL命令脚本,保存到CalTopTenRestaurants.sql中:

DROP TABLE RestaurantInfo;

DROP TABLE RestaurantComment;

CREATE TABLE RestaurantInfo AS SELECT * FROM OTS.RestaurantInfo;

CREATE TABLE RestaurantComment AS SELECT * FROM OTS.RestaurantComment;

CREATE TABLE IF NOT EXISTS TopTenRestaurants (DistrictID INT, RestaurantID INT, Name STRING, Address STRING, PhoneNumber STRING, Location STRING, Category STRING, ScoreStat INT, CostStat INT);

INSERT OVERWRITE TABLE TopTenRestaurants SELECT a.DistrictID, a.RestaurantID, a.Name, a.Address, a.PhoneNumber, a.Location, a.Category, b.ScoreStat, b.CostStat FROM RestaurantInfo a JOIN (SELECT DistrictID, RestaurantID, AVG(Score) AS ScoreStat, AVG(Cost) AS CostStat FROM RestaurantComment GROUP BY DistrictID, RestaurantID) b ON a.DistrictID = b. DistrictID AND a.RestaurantID = b.RestaurantID ORDER BY b.ScoreStat DESC LIMIT 10;

EXPORT DATA TO OTS TopTenRestaurants FROM TABLE TopTenRestaurants;

为了定期执行上面的SQL命令脚本,我们在ODPS中创建一个作业(QUERY)【注:由用户定义的一系列串行执行的SQL命令,保存在ODPS中,用来对ODPS中的表完成某个特定的数据分析操作】:

$ odpscmd CREATE QUERY CalTopTenRestaurants FROM

./CalTopTenRestaurants.sql;

CalTopTenRestaurants这个作业包含了计算“十大餐馆”的全部数据分析操作,我们需要这个作业每天运行一次,在odpscmd中进行如下设置:

$ odpscmd SET QUERY CalTopTenRestaurants EXECTIME=00:00:00 EVERY DAY;

好了,现在这个作业会从设置的第二天零点开始,每天执行一次。你的前端应用程序可以直接在OTS中访问结果表数据,ODPS会在后台自动完成作业的运行和监控,并会在出现问题时,通过ODPS管理中心向你发出警报。你可以随时查询这个作业的状态,了解它的上次运行时间、总运行次数等信息。

$ odpscmd DESCRIBE QUERY TopTenRestaurants;

构造复杂的数据挖掘任务

利用上面的流程,你可以完成很多简单的数据分析操作,让你的网站能够为客户提供更丰富的服务;但你的数据蕴含的价值远不止如此。下面再来试个稍微复杂一点的例子:你的用户在网站上发表的点评暗示了他/她的消费轨迹和偏好,我们希望通过分析用户的点评数据,为他/她推荐喜爱的餐馆。

首先需要做点准备工作。在《借助OTS快速构建LBS服务》一文中没有提及用户信息如何保存,由于后续的计算需要用到用户数据,不妨假设你的用户信息都存放在表4中。

然后我们来分析如何向用户推荐他/她喜欢的餐馆。

    首先将OTS中的原始数据表导入到ODPS中。

DROP TABLE RestaurantInfo; #(1)

CREATE TABLE RestaurantInfo AS SELECT * FROM OTS.RestaurantInfo; #(2)

DROP TABLE RestaurantComment; #(3)

CREATE TABLE RestaurantComment AS SELECT * FROM OTS.RestaurantComment; #(4)

DROP TABLE UserInfo; #(5)

CREATE TABLE UserInfo AS SELECT * FROM OTS.UserInfo; #(6)

    在上一节中计算的结果依然有用:首先得到所有餐馆的用户口碑,接下来可以计算每类餐馆中口碑最好的一家。

DROP TABLE RestaurantStat; #(7)

CREATE TABLE RestaurantStat AS SELECT a.DistrictID, a.RestaurantID, a.Name, a.Address, a.PhoneNumber, a.Location, a.Category, b.ScoreStat, b.CostStat FROM RestaurantInfo a JOIN (SELECT DistrictID, RestaurantID, AVG(Score) AS ScoreStat, AVG(Cost) AS CostStat FROM RestaurantComment GROUP BY DistrictID, RestaurantID) b ON a.DistrictID = b. DistrictID AND a.RestaurantID = b.RestaurantID; #(8)

DROP TABLE BestRestaurantInCategory; #(9)

CREATE TABLE BestRestaurantInCategory AS SELECT Category, DistrictID, RestaurantID, Name, Address, PhoneNumber, Location, MAX(ScoreStat) AS BestScoreStat, CostStat FROM RestaurantStat GROUP BY Category; #(10)

    找到每个用户最后发表点评的餐馆,假设他/她刚刚去过那家餐馆,并且比较喜欢那个餐馆所在类别的餐馆;计算这些餐厅所属的类别。

DROP TABLE UserLatestCategory; #(11)CREATE TABLE UserLatestCategory AS SELECT a.UserName, b.Category FROM (SELECT DistrictID, RestaurantID, MAX(DateTime) AS LatestDateTime, UserName FROM RestaurantComment GROUP BY UserName) a JOIN RestaurantInfo b ON a.DistrictID = b.DistrictID AND a.RestaurantID = b.RestaurantID; #(12)

    向用户推荐由#3得到的那类餐馆中口碑最好的一家。

#计算为每位用户推荐的餐厅

DROP TABLE UserRecommandedRestaurant; #(13)

CREATE TABLE UserRecommandedRestaurant AS SELECT a.UserId, a.UserName, b.Category, c.Name, c.Address, c.PhoneNumber, c.Location, c.BestScoreStat, c.CostStat FROM UserInfo a LEFT OUTER JOIN UserLatestCategory b ON a.UserName = b.UserName LEFT OUTER JOIN BestRestaurantInCategory c ON b.Category = c.Category; #(14)

    将结果表中的数据导出到OTS中供网站应用访问。

EXPORT DATA TO OTS UserRecommandedRestaurant FROM TABLE UserRecommandedRestaurant; #(15)

我们可以将上述SQL命令保存为一个作业,提交给ODPS服务执行。但这样一个作业中的所有SQL命令是顺序执行的,对于RestaurantComment和UserInfo这类含有千万甚至亿条数据的表而言,执行GROUP BY和MULTI-JOIN操作需要花费大量时间。如果数据模型的复杂度提升,时间还会进一步增加,难以满足数据分析对时效性的要求。有什么好办法吗?通过观察不难发现,上述15个SQL语句之间是有依赖关系的,其依赖关系可以构成一张有向无环图,如图1所示。每个节点的编号与SQL语句后面的编号一一对应。

图1 计算向用户推荐的餐馆的SQL语句的依赖关系

ODPS支持按作业的依赖关系并发调度作业,因此,我们根据这15个SQL语句的依赖关系将它们整理成如下作业(冒号前面是作业名称,冒号后面是该作业包含的SQL语句,此处省略了在odpscmd中定义作业的命令):

QUERY GenRestaurantInfo: 1, 2

QUERY GenRestaurantComment: 3, 4

QUERY GenUserInfo: 5, 6

QUERY CalBestRestaurantInCategory: 7, 8, 9, 10

QUERY CalUserLatestCategory: 11, 12

QUERY CalUserRecommandedRestaurant: 13, 14

QUERY Finish: 15

定义好作业后,我们可以在ODPS中定义一个工作流 【注:由用户定义的作业集合,集合中的作业满足特定的执行依赖关系。利用ODPS的并发调度功能,使用工作流可以更高效地执行多个作业】。这个工作流包括上述全部作业以及它们之间的依赖关系,通过执行这个工作流,可以完成向用户推荐餐馆的全部数据分析操作。

$ odpscmd CREATE WORKFLOW CalUserRecommandedRestaurant { GenRestaurantInfo -> CalBestRestaurantInCategory, GenRestaurantInfo -> CalUserLatestCategory, GenRestaurantComment -> CalBestRestaurantInCategory, GenRestaurantComment -> CalUserLatestCategory, CalBestRestaurantInCategory -> CalUserRecommandedRestaurant, CalUserLatestCategory -> CalUserRecommandedRestaurant, GenUserInfo -> CalUserRecommandedRestaurant, CalUserRecommandedRestaurant};

工作流CalUserRecommandedRestaurant定义的作业之间的依赖关系如图2所示。

图2 计算向用户推荐餐馆的作业的依赖关系

定义好工作流之后,就可以像执行作业一样执行它了。我们现在就来计算为每个用户推荐的最喜欢的餐厅,并将结果表导出到OTS。或者,你也可以为该工作流定义执行计划,这需要综合考虑用户的登录频率和该工作流的执行时间。

$ odpscmd EXEC WORKFLOW UserRecommandedRestaurant;

后记

ODPS拥有出色的数据离线处理能力,并提供了丰富的命令让用户可以灵活地管理海量数据和多个并发计算作业,以帮助用户快速构建复杂的数据分析和数据挖掘应用。借助于数据分片存储和分片计算等分布式数据处理技术,ODPS可以游刃有余地处理TB甚至PB级别的数据分析任务。除了提供丰富的数据导入/导出命令外,ODPS还与阿里云的其他服务进行了深度集成,允许用户轻松地将在其他服务中沉淀的数据导入到ODPS中进行分析和处理,并回流到原服务中供其他应用访问。

拥有出色的处理能力仅仅是ODPS的冰山一角,未来我们将会把业务伙伴在ODPS上沉淀的数据开放出来,供更多的组织机构使用,让ODPS成为一个数据分享和数据分析的开放式服务平台,同时满足数据生产者、加工者和消费者等多方面的需求。
分享到:
评论

相关推荐

    离线数据处理练习表数据

    离线数据处理是大数据分析领域中的重要组成部分,它主要针对大规模数据进行批量处理,通常在非实时或近实时的场景下应用。Spark SQL是Apache Spark项目的一个模块,它提供了用于处理结构化数据的强大功能,使得...

    大数据分析、挖掘与应用21.pptx

    而批处理则更适用于离线分析,例如Google的MapReduce模型,它将大规模数据拆分成小块,通过Map函数进行分布式处理,然后由Reduce函数聚合结果。MapReduce的核心思想是分治和计算向数据移动,减少了数据传输的开销,...

    ( 高速数据链的挖掘算法——VFDT算法.pdf

    VFDT(Very Fast Decision Tree)算法是一种用于数据挖掘的决策树学习算法,它旨在处理大规模数据流。VFDT能够快速构建决策树模型,因此非常适合处理高速数据链,这类数据通常具有连续性、高速性和大量性的特点。...

    Hive离线分析项目.zip

    在大数据领域,Hive是一种广泛使用的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)来处理和分析存储在分布式存储系统(如Hadoop)中的大规模数据集。"Hive离线分析项目.zip" 提供的资料很可能是一个...

    大数据处理框架选型分析.docx

    大数据处理框架选型分析主要探讨的是如何在众多的工具和技术中选择适合的平台来应对大规模数据的挑战。这一领域的发展始于Google的三宝——MapReduce、GFS(Google文件系统)和BigTable,它们为大数据处理奠定了基础...

    构建大数据分析平台收集的文档

    Hadoop与星型、雪花型等多维数据模型结合,实现在线分析处理(OLAP)。 8. **数据分析与挖掘**:使用机器学习算法,如分类、聚类、回归和关联规则,对数据进行深度挖掘,发现隐藏模式。Apache Mahout和Spark MLlib...

    云计算环境下地震数据管理与服务应用研究.pdf

    在MapReduce模型中,复杂的大规模数据处理问题被分解成多个独立的任务,由不同的计算节点并行处理,之后再将处理结果汇总。MapReduce模型与HDFS结合使用,可以高效处理和生成大规模的地震波形数据集。 四、地震数据...

    阿里大数据之路——关键总结版.pdf

    离线计算,如Hadoop MapReduce和Apache Spark,适合大规模批处理,对历史数据进行深度分析。 综上所述,阿里大数据之路的总结涵盖了从数据的产生、获取、存储到分析的全过程,强调了在大数据环境中如何有效地处理和...

    多媒体专场+李克——CDN数据化之路(终版)1012.pdf

    离线分析系统则关注于日志分析、历史数据处理和大规模数据挖掘。 数据分析环节涉及到机器学习技术,它能通过数据模式识别和预测算法,自动改进和优化CDN网络性能。例如,智能调度和用户画像系统能够基于用户的访问...

    视觉大数据智能计算实践——从实验室到真实世界.pdf

    它承担着广泛的视频图像分析任务,如大规模离线视觉分析和在线视觉分析。在离线分析中,系统采用视频数据的分布式处理,通过Extractor和Decoder进行数据解码和特征提取,然后进行邻域或整体分析,例如时间窗和空间窗...

    大数据应用基础-分类算法115.pptx

    数据挖掘与统计学有显著区别,前者更注重自动化处理大规模数据,而统计学往往依赖于人工操作和假设检验。 数据挖掘的基本流程包括信息收集、数据预处理、模型构建、评估和知识表示。数据预处理尤为重要,占据大部分...

    大数据应用基础-分类算法.pptx

    离线计算,如Hadoop,适用于处理大规模数据和复杂算法,但可能需要较长时间;在线计算,如Storm、Kafka,能在短时间内完成简单计算,满足实时需求。内存计算,如SAP Hana和Spark,通过在内存中处理数据,显著提升了...

    搜狗搜索日志分析系统

    Hadoop是一个开源的分布式计算框架,它允许在大规模集群上存储和处理数据。在搜狗搜索日志分析中,Hadoop扮演着关键角色,因为搜索日志数据量巨大,传统的单机处理无法胜任。Hadoop的两个核心组件是HDFS(Hadoop ...

    卢亿雷-Hadoop应用及趟坑

    离线平台通过MapReduce来处理大规模数据集,而在线平台则利用Spark进行实时计算。另外,流式计算可以通过Storm实现,以达到实时数据处理的目的。 在讨论Hadoop应用时,卢亿雷还提到了存储系统的选择。例如,他比较...

Global site tag (gtag.js) - Google Analytics