`

深度剖析 | 基于大数据架构的BI应用

阅读更多

说起互联网、电商的数据分析,更多的是谈应用案例,如何去实践数据化管理运营。而这里,我们要从技术角度分享关于数据的技术架构干货,如何应用BI。

 

原文是云猴网BI总经理王卫东在帆软大数据上的演讲,以下是整理的文字稿。

 

在电商领域,我们一般认为所有的数据都可以分为四大类型,流量、销量、商品和会员,这也是最基础的报表需求。

 

流量部分,可以分为受访、点击、搜索、来源等等。这些流量信息运用的重点在于一些广告包括一些产品的改版以及搜索引擎的相关信息展示。虽然这方面百度、GA可以给你提供这方面的信息,但未必能完成一个企业的所有需求。

 

销量部分,会分为销售、补贴、渠道、支付、地域等等。但对于这些信息,领导更关注流量有多少,销量有多少,然后投入是多少,哪个渠道带来的销量是最多的,转化率是最高的,目标客户重点在什么区域。但是对于我们的实际运营,我们还要继续往下细钻,需要对商品和会员的信息挖掘得更加细致。

 

商品部分,会涉及到的品类、库存、毛利、动销和转化,一般电商商品的品类大多会分为三级,但也会往下细分到四级,他需要细化到每个品类的转化率,哪个更高?以及在每一个品类里面哪一个商品的动销率最高,哪种的商品的转化率是最高,因为你需要实时调整和改变。对于会员来讲,还要了解其注册情况、复购情况、活跃度以及喜好和流失等等。所有的这些就构成了我们的常规基础报表。

 

关于BI,包含3个阶段。第一阶段是常规的报表阶段,第二阶段是数据分析,这里的数据分析并不是现有数据的陈述,那是历史数据没有太大意义,不能帮助预测。而数据的价值恰恰在于预测而不是陈述,所以这些信息我们会用来风控。

 

在电商领域会有这样几个风控需求,流量异常,转化异常和订单异常。那这样的风控是怎么做的呢?比如流量异常,加入我们设定的日常流量是30万的PV,某天突然间小于30万了,那就可以设一个阈值说我的流量小于30万了,这个称之为预警。

 

然后讲一下统计学上的一些操作。第一种称之为UCL,在统计学里面称之为质量控制图。在这个图里,所有的流量都含有一定的趋势,可以去判断一个数据的出错,与历史信息产生的异常。一般来讲,产生的绝大多数数据会满足质量分布,98%的数据所处的范围区间会在均值加上两倍标准差的概率之内。为什么要做这样一个模型呢?以前我们没有运用这个模型之前,运营部门经常会跟老板报告这一天流量、销量是多少,当问及为什么下降的时候无从解释,数据是否超出了可控范围无从知晓。有了这样一个模型就很好解决了。

 

风控之后还有其他需求比如用户画像-推荐。用户画像是基本投放的前提条件,只有先做用户画像才能有推荐系统。推荐系统之外还有一个底价系统,底价系统是用来监控对方的价格数据以及提取商品卖点。


所有这些之后,如果要建设一个BI系统,该如何选型呢?免费?收费?还是自建?这里据一些实际例子,做个对比。

 

  • 免费统计

比如免费的流量统计,百度、GA都是免费的统计工具,接入很快,埋入代码就行,但是无法联通H5,APP,数据也不能连入数据库。其次,免费的工具无法解决销量会员商品数据问题,处于企业自身数据安全的问题,包括企业的BI系统,外网是无法访问的。

 

其次,广告渠道的数据不准确,他的统计一定虚高,所以这一块需要第三方的参照。而且每家计算标准不一,数据差异大。

 

  • 收费平台

收费平台介入快,成本相对较低,但数据的私密性较差,多数据源的聚合有难度,每一个端口的唯一识别问题很难去定义。自定义程度也不高,因为它是做通用化的,行业细化不够,沟通成本较高。

 

  • 自建平台

最大的有点在于自定义程度高,数据更为精细,可以为多数据的聚合和钻取,但缺点就在于建设周期长,人才很难找。

 

选型建议

这也是我们为什么找帆软这个企业来做第三方的工具,因为相关人员的成本很高,所以这方面工具的选型建议找专业的来做。避免被业务人员的需求带着跑,而是利用工具去引导。

 

其次,我们一直认为数据的实时性和准确性很重要,用于风控和预测,而帆软报表FineReport的自定义程度可以让非专业人员也能着手做。最后一点,数据的可视化采用编程代价最小,这一点FineReport在数据可视化方面是很不错的。

 

系统架构

这是目前我们公司的系统架构

 


 

首先是两个数据,用户行为数据和业务数据。商品会员交易库存这一方面是业务数据,这些业务数据多数存储在my sql数据库里。埋点系统里的渠道数据分为两端,PC和H5的采集很简单,用脚本组件进行采集,这是通用的。但App就需要打制组件。

 

拿到数据以后会往flume里面去,到flume里直接取到之后,上面会搭一层队列,因为如果单纯依靠flume的话,系统会卡死,因为flume经常出现卡顿现象,也就是说你去控制他的一些监控脚本的话也是没意义的,因为有时候他的内存卡住了,资源占用,他依然在那动。所以搭建这个队列有个好处,第一,走的是消费者模式;第二,里面有位置信息,一旦出现数据错乱可以回补。

 

这些数据,我们首先要满足实时性问题,我们采用的是ES。利用ES做实时查询能解决很多问题,这也是我们原来做大数据的时候经常说给到对方企业采购时,你会发现前期没问题,但越做到后面我们一直说做数据仓要分主题,包括说做Cube之类的,这些都没有意义,当数据量达到一定层级以后,依然很慢。

 

然后是我们的BI系统。所有BI系统都是在展现层和应用层,展现层可以选择FineReport、echart、excel,这个根据企业的情况去定义。但如果企业没有专业的人员, FineReport是你最好的选择,如果用别的话,后期维护成本很高。在BI系统里面不光是做展示你还需要做接口的,这个信息设施需要做接口推送给第三方,包括PC、H5、微信的应用,都是从这个系统里出去的,能实现聚合一个企业的所有数据,在一个系统里面进行展示。

 

应用案例

电商里面存在很多黄牛党的事儿。但我们做活动的目的是让用户享受到实惠,所以在提交订单的时候会有一个过程,并不是立即审核通过的,但这个过程必须很短,要考虑到订单转化的问题。如下图,左边是后台系统的展示,这是疑似刷单名单的截图展示。流程是这样的,用户提交完订单以后,会有一个模型检测,这个模型检测是纯机器,从模型检测再到专家知识。如果在模型检测中符合会到名单里去,否则会进入到专家支持,专家支持完了以后如果认为是正常订单,才能到支付阶段,否则的话都会到疑似名单,到时候再人工判断。

 


 

0
0
分享到:
评论

相关推荐

    京东金融大数据剖析平台总体架构-v1.0-0827.pptx

    京东金融大数据剖析平台总体架构是金融领域中大数据技术在实际应用中的一个重要实例。该平台旨在通过高效的数据处理、分析和挖掘,为业务决策提供强有力的支持,优化风险控制,提升服务质量,以及实现更精准的市场...

    2018-2024年中国大数据市场深度分析与前景发展战略规划研究报告(目录).docx

    此外,报告还对企业大数据需求进行了调查,揭示了企业在数据系统架构、数据技术难题和数据挖掘分析方面的问题,并探讨了企业的大数据应用现状和未来规划,包括数据处理产品服务商的选择和投入情况。 总的来说,这份...

    架构师(2012.1月到2012.6月合集)

    此外,数据治理、数据仓库和商业智能(BI)的话题也可能会被深入剖析。 此外,软件开发过程中的敏捷实践和DevOps文化也在当时逐渐流行。这期间的《架构师》可能会介绍Scrum、XP等敏捷方法论,以及持续集成/持续部署...

    2013中国数据库大会ppt(1)

    SAP HANA深度剖析.pdf eXtremeDB内存数据库性能提升方案分享.pdf 运用之妙 存乎一心—— Oracle优化器案例与算法解析.pdf DM7 MPP架构——同时满足OLAP与OLTP需求.pdf SAP 让大数据飞翔.pdf 阿里数据库关键技术.pdf ...

    2013中国数据大会ppt(2)

    SAP HANA深度剖析.pdf eXtremeDB内存数据库性能提升方案分享.pdf 运用之妙 存乎一心—— Oracle优化器案例与算法解析.pdf DM7 MPP架构——同时满足OLAP与OLTP需求.pdf SAP 让大数据飞翔.pdf 阿里数据库关键技术.pdf ...

    2013中国数据库大会ppt(3)

    SAP HANA深度剖析.pdf eXtremeDB内存数据库性能提升方案分享.pdf 运用之妙 存乎一心—— Oracle优化器案例与算法解析.pdf DM7 MPP架构——同时满足OLAP与OLTP需求.pdf SAP 让大数据飞翔.pdf 阿里数据库关键技术.pdf ...

    Pro Apache Hadoop 2nd Edition 2014

    17. **第17章:构建YARN应用程序** - 讲述了如何基于YARN框架开发分布式应用程序,充分利用Hadoop 2.0的核心特性。 #### 三、技术要点总结 1. **Hadoop 2.0架构** - 本书特别强调了Hadoop 2.0版本的架构变化,即...

    集装箱码头商务智能系统的设计_王金洋1

    综上所述,王金洋的文章深入剖析了商务智能在集装箱码头的应用,强调了数据管理和分析在提升码头运营效率中的关键作用,同时也探讨了应对大数据挑战的策略,为未来码头的智能化发展提供了有益的思考。

    唐人神集团IT规划培训式咨询项目建议书

    4. 技术选型:推荐适合唐人神集团的IT解决方案,如ERP、CRM、BI等系统,以及云计算、大数据等新兴技术的应用。 5. 规划框架:提出整体的IT架构蓝图,包括硬件、软件、网络、安全等方面的布局。 6. 实施计划:制定...

    eBay技术平台:掌控十亿级交易数据(Tony Ng).zip

    10. **数据分析与商业智能**:eBay通过大数据分析,洞察消费者行为,优化营销策略,提升用户体验,这可能涉及数据仓库、OLAP查询和BI工具的应用。 这份资料深入剖析了eBay如何构建和维护一个能够处理十亿级交易的...

    全链路数据分析可视化.pdf

    针对这一需求,"全链路数据分析可视化"的解决方案应运而生,尤其在零售行业,它能够通过双中台架构,深入剖析业务痛点,为企业提供定制化的分析模型和决策依据。 首先,此解决方案的核心是业务指导和自定义分析。它...

    【数据分析及可视化】大型集团公司数据分析及可视化建设方案WORD.docx

    - **财务分析**:通过深度分析财务数据,为企业提供更准确的财务状况评估,辅助高层制定合理的财务策略。 - **物资分析**:优化物资管理流程,实现物资库存的精细化管理,减少库存成本。 - **燃料分析**:针对能源...

    加和科技-2019 智能流量管理研究报告-2019.10-26页.pdf

    分享了流量融合、流量互换、AI应用以及数据BI等领域的创新案例,展示了智能流量管理在实际应用中的效果和价值。 7. 拥抱篇:数字与智能 探讨了数字技术与人工智能如何改变流量管理的现有模式,以及企业如何拥抱...

Global site tag (gtag.js) - Google Analytics