`
fufeng
  • 浏览: 75683 次
社区版块
存档分类
最新评论

数据分布倾斜性风险浅析

阅读更多

数据分布倾斜性指的是数据分布过度集中于数据空间的某端,造成“头重脚轻”或者“比萨斜塔 ”等不均匀的分布特点。

数据分布倾斜性将造成运算效率上的“瓶颈”和数据分析结果的“以偏概全”。

1  效率上的“瓶颈”

假如在大型商场中,共有 A,B1,B2…..B9 十家店铺,其中 A 店铺中有 99W 商品, B1,B2….B9 这九家店铺分别有 1W 商品。我们要统计商场中商品总数,计算初,采用 HASHMAP 作为存储结构,其中 Key :店铺 Value :商品。我们的计算过程是先统计每个店铺的商品总数,最后将结果累加。可以发现,由于 A 99W 商品,按照 1+1 的累积方式(假如 1+1 耗时 1 秒),我们要加 99W 1 才能得到 A 店铺的商品总数(总耗时 99W 秒),而 B1,B2….B9 只需分别累加 1W 1 (分别耗时 1W 秒),而为了得到商场中的商品总数,我们必须等待所有店铺都分别累计结束才能处理总和,显而易见,此时运算瓶颈便集中在 A 店铺的商品累计上。

这类状况经常发生在分布式运算过程中,比如 Hadoop Job 计算,因为 map/reduce 过程中是以 Key-value 形式来处理数据,假如某 key 下的数据量太大,会导致整个计算过程中 move/shuffle/sort 的耗时远远高于其他 key ,因此该 Key 变成为效率“瓶颈”。一般解决办法是,自定义 partitioner ,对所有的 Value 进行自定义分组,使得每组的量较平均,从而解决时间瓶颈问题。


2  数据分析结果的“以偏概全”

同样使用上述的“商场”案例,并且在此基础上我们假设 A 店铺 ,B9 店铺是卖低端商品,而 B1,B2…..B8 是卖高端商品,销量较小。如果我们要根据商品销售状况分析店铺在买家当中的受欢迎程度。由于 A 店铺本身商品量大,而且定位的销售价位是属于薄利多销,如果只从销售量的考虑,我们会以为 A 店铺在商场中是最受买家欢迎的,造成“片面”的分析结果。

其实,遇到这种情况,我们首先的分析卖家性质和买家性质,并且使用相对量来作为评估值,比如 A 店铺卖低端商品,日销售量 1W 商品, 1W/99W<1%, B9 店铺卖低端商品,日销售量 5K 商品, 5K/1W=50%, 所以在低端买家中,低端商品店铺 B9 应该是最受欢迎的。

分享到:
评论

相关推荐

    GreenPlum 分布倾斜性能问题解决案例

    数据分布倾斜是 GreenPlum 数据库中的一个常见问题,指的是数据在各个 Segment 中的分布不均衡。数据分布倾斜将导致查询性能下降。 知识点6:解决方案 解决方案包括:设置大表 P_T014 随机分布,或者选择其他 Join ...

    浅析分布式系统数据分布.pdf

    然而,哈希分布存在散列特性不均、数据倾斜等问题。在某些情况下,特定用户或数据量较大的用户可能集中在同一台服务器上,导致负载不均。解决这些问题通常有两种方法,手动拆分和自动拆分,其中自动拆分的方式依赖于...

    倾斜数据处理建立模型流程.docx

    倾斜数据处理建立模型流程 倾斜数据处理是遥感数据处理的一种重要步骤,涉及到数据的采集、处理和分析。在本文档中,我们将详细介绍倾斜...通过遵循本文档中的步骤和注意事项,可以确保倾斜数据处理的正确性和有效性。

    大数据常见问题之数据倾斜.docx

    数据倾斜是大数据处理中常见的问题,它指的是在分布式计算过程中,由于数据分布不均,使得某些节点负担过重,导致计算速度严重下降,甚至任务无法完成。数据倾斜的影响广泛,可以出现在Hadoop MapReduce和Spark等...

    osgb 倾斜摄影数据 osgb 倾斜摄影数据

    osgb 倾斜摄影数据osgb 倾斜摄影数据

    数据倾斜优化方案

    对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著 多于其它部分,从而使得该...

    倾斜摄影测试数据3dtile

    总之,"倾斜摄影测试数据3dtile"提供了使用Cesium展示倾斜摄影模型的实例,涵盖了从数据采集、处理到Web展示的整个流程。对于学习和测试Cesium的3D地图开发,这是一个非常有价值的资源。通过深入理解和实践,开发者...

    spark sql 数据倾斜 - 处理篇.pdf

    数据倾斜的根本原因在于数据分布的不均匀性。在Spark SQL中,数据倾斜通常表现为某些任务的执行时间远远超过其他任务,这往往是因为它们处理了特别大量的数据。如果倾斜严重,即使是使用了大量资源的分布式系统,也...

    数据倾斜解决方案之使用随机key实现双重聚合

    在大数据处理领域,数据倾斜是一个常见的问题,它发生在分布式计算环境中,当数据分布不均匀时,某些节点或分区上的数据量远超过其他节点,导致计算性能严重受阻。本主题将探讨如何通过使用随机key来实现双重聚合,...

    osgb倾斜摄影数据

    osgb数据、倾斜摄影数据、可转换为lfp格式、8cm倾斜摄影三维数据

    OSGB倾斜摄影数据下载

    ### OSGB倾斜摄影数据下载知识点解析 #### 一、倾斜摄影技术概述 倾斜摄影技术是一种新兴的摄影测量技术,它通过在无人机或飞机上安装多个角度的相机来获取地面目标物体的不同视角图像,进而构建出高精度的三维...

    osgb数据 倾斜摄影数据

    osgb数据、倾斜摄影数据、可转换为lfp格式、8cm倾斜摄影三维数据

    倾斜摄影数据

    8. **数据存储与管理**:由于倾斜摄影数据量大,需要有效的数据存储和管理方案,如使用云存储、分布式数据库等技术,以确保数据的安全性和可访问性。 9. **精度评估**:倾斜摄影模型的精度可以通过比较模型与实地...

    倾斜摄影数据,OSGB格式

    倾斜摄影技术是一种先进的三维地理信息系统(3D GIS)获取数据的方法,它利用多视角相机从不同角度拍摄地面,然后通过专业软件处理生成高精度、高分辨率的三维模型。OSGB(Oracle Simple Geometry Binary)格式是...

    倾斜摄影数据处理和发布流程

    倾斜摄影数据处理和发布流程 倾斜摄影数据处理和发布流程是一个复杂的过程,涉及到数据处理、存储、发布等多个方面。在本文中,我们将详细介绍倾斜摄影数据处理和发布流程的各个步骤,并对每个步骤进行详细的解释。...

    Spark-数据倾斜的解决方案.pdf

    ### Spark 数据倾斜解决方案详解 #### 一、理解数据倾斜及其影响 ...综上所述,解决Spark中的数据倾斜问题需要综合考虑数据的特点和业务需求,采用合适的策略来优化数据处理流程,提高系统的整体性能和稳定性。

    最好的大范围倾斜摄影osgb样例数据下载

    本主题关注的是一个关于大范围倾斜摄影的数据样本,特别是针对九龙半岛CBD油尖旺区的osgb格式数据。 osgb(Ordnance Survey Grid for Britain)是英国地形测绘局提出的一种文件格式,用于存储三维地理空间数据。...

    大量倾斜摄影测量数据

    倾斜摄影测量数据,可用于三维建模和可视化分析,即可用于网页版也可用于桌面程序。

    矿山倾斜摄影数据.zip

    原始数据,需要使用contesxtcapture工具生成cesium支持的3dtile,效果参考https://blog.csdn.net/as320qqw/article/details/60573593

Global site tag (gtag.js) - Google Analytics