常用大数据技术名词通俗解释
Hadoop:
最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上无穷多的文件,因此称为大数据平台。
MapReduce:
在Hadoop存文件的基础上,MapReduce担任处理文件的角色,它读到文件,并把处理文件的任务分成很多子任务,让它们在多台机器上执行,然后汇总结果。因此,只要机器足够多,处理文件的能力可以无限扩充。但它的一个缺点是每个任务的衔接,都是通过中间文件来完成,因此,除了CPU外,有很多磁盘读写的操作。
Hive:
Hive是基于Hadoop和MapReduce而衍生出来的,hadoop上文件的存放在hive里面抽象为数据库的表,访问表的SQL会被自动解析成MapReduce的任务。在hive出现之前,玩Hadoop大数据写MapReduce任务就是个高大上的玩意,难理解,难开发,难维护。 而在hive出现后,同样的需求,原来MapReduce可能要几百行实现,hive则只要十多行sql就能实现,一下子就把大数据平民化了。
Spark:
Spark是类似于MapReduce的文件处理引擎, 也是把读到的数据源文件分解成处理任务,然后分发到多台机器执行。不同的地方是,他以在内存执行为主。好处是速度快了, 坏处是内存玩不好容易奔溃,因此暂时还不是特别稳定,有效。
SparkSQL:
在Spark基础上增加了一种数据源的引入方式, 之前是从各种文件引入源数据, SparkSQL支持用SQL导入源数据处理(各种DB,包括Hive),在spark中分析处理,并把结果用SQL导回去。 这个方案好是好,结构化存储了数据,也避免了MapReduce的中间结果IO读写, 但是,开发人员要多学习一种开发语言Scala才能够把数据处理这个事情做完整,增加了开发维护的难度。
Hive on Spark:
在hive的基础上升级,目前看起来最完美的解决方案了。把原来Hive所依赖的任务计算引擎替换成Spark(set hive.execution.engine=spark;),一个配置而已,原来已经存在的代码都无需改动,性能直接提升100倍。但是,目前还没有正式版本GA, 估计要到Hive 1.3.0, 当前最新是Hive 1.2.1
相关推荐
模型(Model)就好比一台机器,通常用于完成某一项任务,有输入(Input)也有输出(Output),例如在猫狗图片二分类这一任务中,输入为各种各样的猫狗图片,输出为猫或狗这两个选择之一 模型会包含一些可调参数...
这份"科技大数据结构名词解释+简答.zip"压缩包很可能是为了帮助学习者理解和掌握大数据技术中的核心概念,包括各种数据结构的定义、工作原理以及在实际问题中的应用。以下是对一些常见大数据结构的详细解释和简答: ...
常用临床医学名词(2019年版)
数字电子技术基础名词解释 本资源摘要信息涵盖了数字电子技术基础的主要概念和术语,包括数字逻辑、编码、数制、逻辑函数、逻辑门、集成电路等方面的知识点。 一、数字逻辑 * 与(AND):当所有条件全满足时,...
标准规范建设开展生态环境大数据标准规范建设,编制《环境数据资源管理办法》,建立总体集成、技术名词、数据接入、数据整合集成、系统服务接口等技术规范,规范统一集成开发和实施管理,保障系统接入和数据整合的...
该文档对大数据存储、处理和分析的各种概念和技术进行了详细的解释,从而帮助读者更好地理解大数据领域的知识。 结构化数据 结构化数据是指企业数据库中的数据,包括条目信息、日期、客户操作信息等。这种数据可以...
报告通过详细的研究方法和名词解释,为读者提供了全面的理解框架。 总的来说,2019年的报告强调了大数据技术在提升金融效率、风险控制和监管能力方面的关键作用,并预测了这一趋势在未来将继续深化,特别是在中小...
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和...
数据库常用名词解释 数据库(Database)是统一管理的相关数据的集合,具有最小冗余度,数据间联系密切,而又有较高的数据独立性。数据库管理系统(DBMS)是位于用户与操作系统之间的一层数据管理软件,为用户或应用...
- **大数据的名词由来**:自20世纪90年代开始,随着信息爆炸的学科如天文学和基因学的兴起,"大数据"的概念逐渐形成,并在2011年由EMC正式提出。 4. **相关技术与应用** - **云计算**:作为大数据处理的重要支撑...
### 常用计算机英语名词解释 在信息技术领域,掌握一定的专业英语词汇是十分必要的,尤其是在全球化的今天,英语作为国际通用语言,在技术交流、文献阅读等方面扮演着至关重要的角色。以下是对部分常见计算机英语...
### 电信技术名词解释大全 #### SDH (同步数字系列) **定义与基本概念:** SDH(Synchronous Digital Hierarchy)是一种全新的数字传输体制,它被视为电信传输领域的一次革命性变革。SDH旨在构建信息高速公路的...
信息化常用名词解释.doc
计算机网络中有很多重要的名词解释,这些名词解释对于计算机科学与技术专业的考试非常重要。下面是这些名词解释的详细介绍: 1.AS (Autonomous System) 自治系统:AS 是一个独立的网络系统,拥有自己的路由选择和...
标题“大数据技术分享 Spark技术讲座 Nouns比N-Grams好”和描述“大数据技术分享 Spark技术讲座 Nouns比N-Grams好”暗示了文档的主要内容集中在大数据处理和分析中,特别是利用Apache Spark框架来改善文本分析的过程...
数据库常用名词解释 数据库是一种统一管理的相关数据的集合,具有最小冗余度,数据间联系密切,而又有较高的数据独立性。数据库管理系统(DBMS)是位于用户与操作系统之间的一层数据管理软件,为用户或应用程序提供...
网络技术+网络常用名词解释