`

FineBI分布式引擎——专为海量数据计算分析而生

阅读更多

一、FineBI分布式引擎介绍

FineBI分布式引擎是帆软自主研发的一款支撑大数据展示分析的高性能引擎,也是FineIndex引擎的更新与升级。全新的分布式引擎在架构上更先进,更加稳定,高可用,高扩展,更高性能,可帮助企业更灵活应对海量数据分析的挑战,是专门为海量数据计算分析而生的引擎。

(1)更先进:FineBI分布式引擎整合了现下先进流行的hadoop、spark、alluxio等大数据组件,更先进的技术保证了更大数据量下更好的分析计算体验。

(2)高可用:先进的大数据组件整合的架构,结合合理的系统架构设计,可保证系统全年无故障,全年可正常使用。

(3)横向扩展:引擎在使用时,可自行根据数据量与计算速度的要求,扩展系统中的节点。

(4)更高性能:应用分布式并行计算、内存加速、列式存储等先进的大数据技术,保证亿级数据分析结果秒级展现。

FineBI分布式引擎——专为海量数据计算分析而生

二、FineBI分布式引擎功能与优势

FineBI分布式引擎与FineInde引擎、大数据平台属同等地位,可直接为前端的查询分析计算提供数据支撑。

FineBI分布式引擎——专为海量数据计算分析而生

1、版本

FineBI分布式引擎包括了两个版本,本地版本和集群版本。

本地版本数据计算存储和应用是一体化的,用于数据量级在亿级以下单台机器性能可以支撑的情况,不需要分布式服务端。本地版本直接采用本地文件系统作为核心存储,配合多线程调用、列式存储,和集群版本一样的高性能算法,保持轻量级之余,数据增大之后扩展的需求也能满足,且计算速度一样优秀。

集群版本有服务端-客户端之分,服务端整合了现在流行的hadoop、spark、alluxio等组件,通过Ambari来做集群的部署安装,以及集群状况的监控,让大数据软件部署与使用变得更加简单。而客户端就是FineBI所在的应用服务器,放置jar与配置文件与分布式环境对接之后,使用浏览器访问FineBI服务器即可。

FineBI分布式引擎——专为海量数据计算分析而生

2、列式存储与数据压缩

传统的关系型数据库是行式存储,以记录为单位做存储的,这种方式在做分析计算上会比较慢。百万到千万量级的数据,分析计算展示的时间可能就需要30多秒到1分钟,业务人员想自己做分析,然而一直等待就会失去耐心,因此FineBI推出了中间存储层,来为前端分析提供预处理好的数据,数据展现达到秒出效果。

数据存储主要分为行式存储和列式存储。行式存储以记录为单位,列式存储则以列为单位。分布式引擎的核心就在于列式存储。相比于行式存储,列式存储在计算查询分析的业务场景下有着诸多优点。

(1)同一列的数据都是连续存储的,在查询时可大幅降低IO,大幅加快查询速度。

(2) 同时连续存储的列数据,具有更大的压缩单元和数据相似性,从而大幅提高压缩效率与压缩比,可以大大降低磁盘I/O与资源的占用。

(3)利用索引在过滤时可进一步减少I/O,提高扫描效率。

FineBI分布式引擎——专为海量数据计算分析而生

3、对大数据的良好支撑

传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。

分布式存储系统可根据企业分析数据量的增加,来扩展机器的节点。多节点可利用多台存储机器的性能,均衡分担压力,提供完善的数据恢复机制。同时,分布式的架构可允许集群节点无限扩充,提高系统扩展能力。三台及以上节点的情况下,可以允许近半数机器宕机,系统依然可以正常运行。强大的容灾能力保证了分析数据的完备性,降低了项目风险,提高了系统的健壮性。目前可以支撑十亿左右的大数据量即席分析。

4、解决方案的灵活选择

(1)实时数据与历史数据的整合分析

带分布式引擎的FineBI可以将数据抽取过来存储到分布式引擎中,用于历史数据分析,也可以直接向数据库发SQL,用于实时计算分析。

同一个表可以直接对接数据库分析,也可以抽取数据进行分析,两种方式可以随意切换,实时性强选择实时数据,性能要求高选择抽取数据。且可以实现实时数据与历史数据的关联分析,实时数据与历史数据也可在同一Dashboard中展示,从而扩大分析维度的范围。

(2)整合Kettle插件

FineBI分布式引擎——专为海量数据计算分析而生

分布式引擎扩展了kettle插件,数据可以经过Kettle的清洗转换之后,表输出到分布式引擎,在前端展示分析。从数据整合处理到数据展示分析有灵活完整的解决方案,让项目的实现更加灵活方便。

5、高性能增量方案

FineBI分布式引擎需要做数据的抽取与同步,因此好的增量同步方案可以节约数据抽取时间,减小数据库服务器压力。FineBI分布式引擎提供增量追加与增量删除的功能,并可使用增量删除与追加的组合实现增量修改的功能,从而满足更多数据同步需求。

转自:

http://blog.vsharing.com/fr51862240/A1950965.html
分享到:
评论

相关推荐

    分布式数据库——海量数据的最优选择.pdf

    随着业务数据的快速增长,传统关系型数据库面临存储和处理海量数据的挑战,而分布式数据库恰好能够满足海量数据存储与查询的需求。 分布式数据库的关键特点包括高可用性、水平扩展能力、分布式事务处理等。高可用性...

    分布式计算——原理、算法和系统

    分布式计算在云计算、大数据分析、物联网(IoT)等领域有着广泛应用,随着技术的发展,其重要性和影响力将持续增长。了解并掌握分布式计算的原理、算法及系统,对于从事IT行业的专业人士来说至关重要。

    基于消息队列的分布式爬虫——以电商产品数据为例.pdf

    大数据处理技术能够帮助我们将非结构化的爬取数据转化为结构化的数据,为后续的数据分析提供支持。 从技术角度出发,分布式爬虫的设计需要考虑爬虫节点的管理、任务调度、爬取策略、日志记录、反反爬虫策略等多方面...

    《分布式对象存储——原理 架构及Go语言实现 》_胡世杰.zip

    分布式对象存储是一种大规模、高可用、可扩展的数据存储系统,主要设计用于存储和检索大量非结构化数据,如图片、视频、文档等。在互联网时代,这种技术是支撑云服务和大数据应用的基础。《分布式对象存储——原理 ...

    PowerBI VS FineBI 对比分析文档

    FineBI 和 PowerBI 的数据模式都支持实时和抽取模式,但是 FineBI 采用分布式架构引擎进行数据的列式存储,支持十亿大数据量,计算速度更快、性能处理更加强大。PowerBI 的数据引擎在抽取模式下仅仅是将数据以行式...

    陌陌聊天数据实现FineBI数据分析报表

    在大数据分析领域,陌陌...通过Hadoop和Hive,我们可以有效地管理和处理海量聊天数据,而FineBI则为我们提供了直观且易用的工具,将复杂的数据转化为易于理解的视觉呈现,助力企业更好地理解用户行为,优化产品和服务。

    分布式系统——从GFS到Hadoop.docx

    分布式系统——从GFS到Hadoop 分布式系统是指一种可以跨越多台计算机、多个网络和多个组织的计算机系统。它可以提供高性能、可靠性和可扩展性的计算能力。分布式系统的应用非常广泛,例如云计算、大数据处理、社交...

    阿里巴巴分布式数据库 ——原理、实现和应用

    阿里巴巴分布式数据库 ——原理、实现和应用 Cobar Solution

    基于Hadoop分布式计算架构的海量数据分析.pdf

    它通过提供类SQL的命令式编程语言Pig Latin,使得用户能够在不深入理解分布式计算复杂性的情况下,高效地完成海量数据分析任务。这一点尤其对于那些非计算机专业的数据分析人员来说,无疑是一个巨大的福音。通过Pig...

    海量GNSS数据分布式存储与计算方法.pdf

    分布式存储技术为数据提供了更好的扩展性和可用性,而分布式计算技术则极大地提升了数据处理的速度和效率,为大数据时代的GNSS应用提供了坚实的技术基础。 最后,文章也提到了基于分布式存储与计算的GNSS数据管理与...

    分布式系统——从GFS到Hadoop.pdf

    "分布式系统——从GFS到Hadoop" 本文将围绕分布式系统进行介绍,重点介绍Google的“三驾马车”,包括GFS、MapReduce和BigTable。通过对这些技术的介绍,让读者快速了解分布式系统的总体概念和架构。 分布式系统是...

    分布式计算环境——云附加

    北邮 邹华老师的分布式计算环境——讲述云附加

    分布式系统——概念和设计 英文版

    2. **分布式计算基础**:书中首先介绍了分布式计算的基本原理,包括通信机制、消息传递、并发控制等,为后续深入探讨分布式系统的设计和实现奠定了坚实的基础。 3. **分布式系统架构**:详细讨论了分布式系统的不同...

    分布式计算环境——第五章网格计算

    北邮邹华老师的分布式计算环境课件——第五章叙述网格计算

    淘宝分布式文件储存引擎——TFS

    淘宝的分布式文件存储引擎,简称TFS(Taobao File System),是阿里巴巴集团为解决大规模电商网站数据存储问题而设计的一款高性能、高可用的文件系统。它主要服务于淘宝内部的大量在线业务,如商品图片、用户数据等...

    分布式云计算环境下的海量数据有效查询方法.pdf

    分布式云计算环境下,由于其特性使得海量数据的有效查询面临挑战。在分布式云环境下,数据量大、分布广泛且经常处于动态变化之中,加上带宽和能量的限制以及链路的频繁断接,传统的数据查询方法往往无法高效执行。...

    一种支持SIMD体系结构的高效分布式堆栈——HEDSSA.pdf

    在计算机工程与科学领域,随着应用规模的不断扩展及实时性的要求日益提升,对计算能力的需求亦日趋增长。特别是针对SIMD(Single Instruction Multiple Data)体系结构的处理器,因其能在单一指令控制下对多个数据...

    一种基于分布式计算平台的试验数据包络线分析算法.pdf

    综上所述,文章提出的基于MapReduce分布式计算平台的试验数据包络线分析算法,不仅为航天试验数据的处理提供了有效工具,同时也展示了分布式计算技术在处理大规模数据集上的强大能力和应用前景。随着航天技术的不断...

Global site tag (gtag.js) - Google Analytics