`
大涛学长
  • 浏览: 105445 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于MaxCompute InformationSchema进行冷门表热门表访问分析

阅读更多
**一、需求场景分析** 
在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况,从而优化数据模型。 
一个MaxCompute项目中经常使用的表简称为热门表,使用次数较少或者很长时间不使用的表简称为冷门表,本文将介绍如何去通过MaxCompute元数据信息去分析热门表和冷门表。 
**二、方案设计思路** 
MaxCompute Information\_Schema提供了项目中全量的表元数据信息Tables以及包含访问表的作业明细数据tasks\_history,通过汇总各个表被作业访问的次数可以获知不同表被作业使用的频度。 
**详细步骤如下:** 
1、热门数据通过获取tasks\_history表里的input\_tables字段的详细信息,然后通过count统计一定时间分区内的各个表使用次数 
2、冷门数据通过tables和tasks\_history里的input\_tables表的作业汇总数量进行关联、排序,从而统计出各张表在规定时间内的使用次数,正序排列 
**三、方案实现方法** 
1、获取tasks\_history表里的input\_tables字段的详细信息。如下图所示: 
![1](https://yqfile.alicdn.com/2892fe2b94466991342f5fb0ba52668c2d6a826b.png)

查询数据的结果如下图所示: 
![1](https://yqfile.alicdn.com/29983d6bf3284fe43fc43a35c7e0caf8bd596c6f.png) 
发现在tasks\_history表中input\_tables字段格式为 
\["lightning.customer","lightning.orders\_delta"\] 
所以在统计的时候需要对字段进行按逗号分割 
注意:案例中的时间分区可以根据需求去调整范围,区间根据实际场景去做相应的调整 
例如:Ds>='20190902' and Ds<='20190905' 
**函数处理如下:** 
![1](https://yqfile.alicdn.com/3fbb48ad117434af0bd002fbbfcf394f117d1bf7.png)

处理结果如下图: 
![1](https://yqfile.alicdn.com/9a4a9e26ddd7a490a052e31872a775d892d1127f.png)

2、统计热门表数据SQL编写: 
![1](https://yqfile.alicdn.com/6827dfffdf755aec87198844421de9ee9b67a1c7.png)

结果如下图所示: 
![1](https://yqfile.alicdn.com/8e9a47e9ba86eb99a0d0819fab735c1da39a5c26.png)

3、统计冷门表数据SQL编写: 
通过tables和tasks\_history里的input\_tables表的作业汇总数量进行关联、排序,从而统计出各张表在规定时间内的使用次数,正序排列。 
![1](https://yqfile.alicdn.com/f213b928983c0f8ee86e3ada02143c93d287776e.png)

结果如下所示: 
![1](https://yqfile.alicdn.com/1612382a4f73ee5c0710db28bf047c930063fe8c.png) 
![1](https://yqfile.alicdn.com/a1d8cf52616eb09e26635b763677afe9ac602b4a.png) 
所有的表按照使用次数进行排序 
即可得到各个表的使用次数排序信息。从而去进行合理化的管理数据表。 
**注意:**SQL中的” your\_project\_name.”为表名前缀,客户需要参照自己的实际数据去做相应的修改调整。

 

 

 

[原文链接](https://yq.aliyun.com/articles/728178?utm_content=g_1000090962)

本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    十大高就业率专业均是冷门原因分析-分析热门专业和冷门专业的图表模板样式范文.docx

    【标题】和【描述】提到的是关于高考志愿填报的话题,主要关注的是高就业率的专业往往被认为是冷门专业,以及热门专业在就业市场的表现。这里涉及的主要知识点包括: 1. **热门专业与冷门专业的就业差异**:在高考...

    国外冷门免杀加壳程序Pepsi Packer v2

    加壳程序的工作原理通常是先对原始二进制文件进行解包,然后执行原始代码,最后再重新打包。这个过程中可能涉及代码重排序、虚拟机技术、动态地址计算等多种复杂技术,以混淆分析者的视线。Pepsi Packer v2作为一个...

    2010年IT的热门和冷门职业

    首先,"2010年IT的热门职业"可能包括了云计算、大数据分析、移动应用开发和网络安全等方向。随着互联网技术的飞速发展,云计算成为了企业降低成本、提高效率的重要手段,因此相关的架构师和运维工程师需求大增。大...

    巧用威廉赔率对比精准找出足彩冷门.docx

    通过对两者的赔率差异的分析,我们可以更好地找到冷门和预测比赛结果。 首先,威廉的主胜赔率高于澳门,这种情况下冷门很多,要重点防范。澳门的负赔率高于威廉,说明澳门更看好客队获胜,而威廉的平赔率低于澳门,...

    C#.NET网站访问统计系统(全源码)

    - 页面浏览统计:统计各个页面的访问量,分析热门和冷门页面。 - 访问路径分析:追踪用户在网站上的浏览路径,了解用户行为模式。 - 来源分析:识别流量来源,如搜索引擎、直接访问、外部链接等。 - 时间段分析:...

    一、车次上车人数统计表.xlsx

    进一步,我们可能需要分析车次之间的上车人数差异,找出热门和冷门的车次。可以通过排序来实现: ```python sorted_data = data.sort_values('上车人数', ascending=False) print(sorted_data[['车次', '上车人数']...

    电信设备-基于监听响应信息的目录高速缓存分配.zip

    4. 智能预测:除了基于历史数据的分析,还可以结合机器学习算法,预测未来可能出现的热门资源,提前进行缓存准备,进一步提升响应速度。 5. 效率与容量平衡:在优化缓存性能的同时,需要考虑整体系统的资源利用率和...

    冷门AI知乎好物推荐项目玩法,附知乎全套账号运营,小白也能零投资躺赚.zip

    在这个名为“冷门AI知乎好物推荐项目玩法,附知乎全套账号运营,小白也能零投资躺赚”的压缩包中,包含的是一套完整的教程,旨在帮助初学者掌握如何利用人工智能(AI)技术在知乎平台上进行商品推荐,并进行有效的...

    日语一级冷门语法预测

    文章中提到了多个具体的冷门语法点,并对其进行了详细的分析。例如,“だけましだ”意为“仅此而已就已经很好了”,在翻译时可能简化为“已经很不错了”,但实际上包含了“仅仅……就很不错”的含义。这一语法点强调...

    微博表情在互联网人际传播中的作用研究.pdf

    按照系列、运动状态、表情来源、使用程度和设计原型可以将微博表情分为常用表情和魔法表情、静态表情和动态表情、系统默认表情和用户自定义表情、热门表情和冷门表情、人脸原型和动物原型等。这些不同类型的微博表情...

    基于深度学习的视频缓存算法.pdf

    这包括使用运营商提供的实际运行数据与模拟数据进行对比分析,观察各种算法在处理视频访问速度、缓存命中率等方面的表现,从而为优化系统性能提供理论依据。 在数据库技术领域,高速缓存算法的研究是一个持续发展的...

    彩票分析系统

    2. 数据处理:系统对导入的数据进行清洗、整理和统计分析,例如计算每期的热门号码、冷门号码,或者分析连号、奇偶数比例等。这可能涉及C#的数组、列表和数据结构,以及统计学算法。 3. 图形展示:为了便于用户直观...

    抖音冷门直播项目,半无人的玩法模式,每天急需几个小时就可以操作

    “抖音冷门直播项目,半无人的玩法模式,每天急需几个小时就可以操作”是一个专注于利用冷门内容进行直播,并在半无人模式下运营的项目。通过这个项目,参与者可以在每天只投入几个小时的时间,利用抖音平台进行冷门...

    福彩大数据分析大师小程序源代码

    3. 数据统计:计算各种彩种的中奖概率,统计热门号码、冷门号码等。 4. 数据可视化:以图表形式展示数据,如饼图、柱状图、折线图,便于用户直观理解。 5. 预测模型:利用机器学习算法,如决策树、随机森林、神经...

    2021-2025年中国温度校准仪器仪表行业调研及长尾市场战略报告.pdf

    - 对2020年至2021年全球和中国温度校准仪器仪表行业的发展情况进行具体分析,包括主营收入、成本费用、行业利润、应收账款等运营指标。 - 探讨行业竞争格局,国际企业在中国的市场表现和国内企业的成长情况。 - ...

    基于深度学习的甲骨文字检测与识别.pdf

    其次,作者详细探讨了甲骨文字识别和检测的研究进展,分别从传统方法和深度学习技术两个角度进行了阐述,深入分析了技术细节、数据集信息、以及基本性能表现。特别是深度学习技术,如多层感知器、稀疏自编码器等,为...

    网络游戏-基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法.zip

    识别出这些行为后,游戏网站可以采取相应的措施,如限制爬虫的访问速度或对它们进行特定的响应,以保护服务器资源。 接下来,缓冲更新策略是提高性能的关键。在网络游戏环境中,Web点击计数通常涉及到大量的实时...

    地球上的“热门”与“冷门”高峰

    1. 地球上的“热门”与“冷门”高峰是指那些吸引大量攀登者和相对较少被挑战的山峰。热门高峰通常因为知名度高、攀登难度相对较低,吸引了许多业余爱好者和专业登山者;而冷门高峰则可能由于极高的攀登难度和危险性...

    基于互联网的商业模式创新实例分析.docx

    ### 基于互联网的商业模式创新实例分析 #### 摘要 本文主要探讨了互联网技术如何推动商业模式的创新,并以网络书店作为典型案例进行了深入分析。通过对当当网等网络书店的发展历程及其策略的研究,揭示了网络书店...

    最强大脑养成计划,冷门类型的虚拟项目,适合新手长期操作

    最强大脑养成计划是一个冷门类型的虚拟项目,可以帮助人们提升大脑功能和思维能力,适合新手长期操作。 这个项目采用了一些先进的神经科学技术和认知心理学理论,旨在通过训练和游戏来提高人们的认知、记忆、分析和...

Global site tag (gtag.js) - Google Analytics