1、大数据的特点可以概括为4V: Volume Value Variety Velocity,即数据规模大、数据价值高、数据类型多、数据处理速度快。
2、核心特征是Value,数据价值高。但是价值密度低。
3、大数据处理主要关注的五项技术:高性能数据仓库、MPP数据库、HADOOP、NoSQL、Stream
MPP数据库:MPP即大规模并行处理系统,系统由许多松耦合处理单元组成的。其中,每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例副本。这种结构最大的特点在于不共享资源。
并行数据库体系结构包括三种基本体系:共享内存结构(Shared-Memory)、共享磁盘结构(Shared-Disk)、无共享资源结构(Shared-Nothing)。
Shared-Memory结构也就是SMP结构,包括多个处理器、一个全局共享的内存(主存储器)和多个磁盘存储,各个处理器通过高速通信网络(Interconnection Network)与共享内存连接接,并均可直接访问系统中的一个、多个或合部的碰盘存储,在系统中,所有的内存和磁盘存储均由多个处理器共享。
共享磁盘(Shared-Disk)结构: 系统中的每一个处理器可以访问全部的磁盘存储,磁盘存储中的数据被复制到各个处理器各自的高速缓冲区中进行处理,这时会出现多个处理器同时对同一磁盘存储位置进行访问和修改,最终导致数据的一致性无法保障,因此,在结构中需要增加一个分布式缓存管理器来对各个处理器的并发访问进行全局控制与管理,这会带来额外的通信开销。Oracle的RAC就是样的结构。
无共享资源(Shared-Nothing)结构:
该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器级由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。目前,在并行数据库领域,Shared-Memory结构很少被使用了,Shared-Disk结构和Shared-Nothing结构则由于其各自的优势而得以应用和发展。Shared-Disk结构的典型代表是Oracle集群,Shared-Nothing结构的典型代表是Teradata,IBM DB2和MySQL的集群也使用了这种结构。
Stream:实时数据处理过滤,规则匹配
总结一下:
大数据时代没有“必杀技”可以高效低成本的满足整个架构,和种技术相辅相成,优势互补。
高性能数据仓库:高并发、高性能处理结构化数据、支撑高SLA需求
MPP数据库:结构化、关联性分析、即席分析
Hadoop:非结构化或批量简单汇总、非实时处理、数据挖掘
NoSQL:结构化或非结构化存储与实时查询
流处理(Stream):实时数据处理过滤,规则匹配
相关推荐
根据提供的文件信息,我们可以梳理出关于《T∕ISEAA 002-2021 信息安全技术 网络安全等级保护大数据基本要求》的知识点。这些知识点涉及了网络安全等级保护2.0(等保2.0)在大数据环境下的基本要求。 首先,要了解...
大数据基础知识的思维导图
大数据基础介绍。
理解这些基本概念和技术对于进入大数据领域至关重要,因为它们是处理和分析海量数据的基础,同时也是许多现代数据分析和人工智能应用的基石。通过学习和掌握这些知识,我们可以更好地应对和利用大数据带来的机遇,...
根据提供的文件信息,文件标题为《网络安全等级保护大数据基本要求.pdf》,而描述与标签字段为空。内容部分则是由一系列看似随机的数字、字母和符号组成,很可能是OCR技术扫描识别错误或乱码,导致难以从中提取有用...
根据所提供的文件信息,以下知识点涉及信息安全技术领域中网络安全等级保护以及大数据的基本要求: 首先,我们了解到这是一份2021年发布的关于网络安全等级保护的技术标准文件。网络安全等级保护是根据《中华人民...
数据挖掘是大数据技能竞赛中非常重要的知识点,本书详细介绍了数据挖掘的基本概念、常用算法及应用案例。包括聚类分析、关联规则挖掘、时间序列分析等算法,同时结合实际案例进行数据挖掘实践。 机器学习是当前非常...
这本书系统地介绍了大数据知识工程的基本概念、原理和技术,为读者深入了解该领域提供了宝贵的资料。 大数据知识工程的应用前景非常广泛,可以应用于企业决策、医疗健康、金融投资等领域。例如,大数据知识工程可以...
大数据技术知识点概要涵盖了大数据的产生背景、特征、价值意义、分布式文件系统HDFS、MapReduce模型、分布式数据库HBase、Spark核心编程以及流计算框架Storm等关键技术的详细介绍。下面将依据各章节内容展开详细讲解...
【大数据基本知识】 大数据,顾名思义,指的是在传统数据处理能力之外的海量、高增长速度、多样化的信息资产。大数据的特点可以概括为“5V”:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值...
首先,它阐述了大数据技术的基本框架,包括数据采集、存储、处理和分析等关键环节,并介绍了当前主流的大数据处理工具和平台。接着,资料聚焦于知识服务的构建,讨论了如何从数据中提取知识,以及如何将这些知识应用...
知识图谱关键技术与农业大数据知识图谱项目介绍 一、知识图谱关键技术 知识图谱(Knowledge Graph)是一种大规模的语义网络(semantic network),由概念实体和语义关系构成。它可以 understands the ...
大数据学习涉及多个层面的知识,首先从预备知识开始,你需要掌握编程语言,特别是Java,因为Java是大数据技术的基础。Java标准版(JavaSE)是学习的重点,包括基础语法、类库和对象模型。对于Web开发相关的JavaEE...
机器学习和并行计算技术帮助从大数据中提取模式和知识;磁盘阵列和内存计算技术提高了数据处理速度;Google的MapReduce是大数据处理的一种编程模型,用于大规模数据集的并行计算;可视化技术则帮助人们更好地理解和...
【大数据基本语法】和【java基础+大数据入门的笔记语法、示例】这两个主题涵盖了编程基础、Java语言特性以及大数据处理的相关知识点。以下是这些知识点的详细解释: 1. **集合操作**: - `list.get(index)`:返回...
务机会,促进商业模式的创新和政策制定的优化。在各个行业中,大数据的应用已经十分广泛,例如: ...无论是个人还是企业,掌握云计算和大数据的相关知识,将为适应未来的发展趋势打下坚实的基础。
大数据基本概念和研究热点 大数据时代的到来,带来了数据量的爆炸式增长。在科学研究、计算机仿真、互联网应用、电子商务等领域,数据量都呈现快速增长的趋势。为了对这些数据进行分析,需要建立大型数据仓库系统,...