- 浏览: 25633 次
- 性别:
- 来自: 深圳
文章分类
最新评论
接触大数据的这两年来,总是被各种琳琅满目的框架工具目不暇接。在这个大数据这个生态圈里,具体的框架工具都有自己的应用场景或不足之处,用来解决特定的问题。技术选型的时候要结合业务特点。没有包治百病,一劳永逸的方案。
1.Hadoop,大数据的鼻祖和基础。 解决存储(HDFS)和计算(MapReduce)。数据运行在磁盘上决定适合批处理任务,实时性低的场景。 NameNode和DataNode, 主从模式。
2.Storm,数据运行在内存中,适合流处理,实时性高场景,缺点不灵活,预先知道统计方式。Spout和Bolt,主从模式。
3.Spark,解决Hadoop运行速度问题,数据运行在内存中。但实时性上还是不如Storm。内存管理依赖JVM。趋势是根据Spark特点独自管理内存。
4.HBase适合数据仓库,实时性不好。 HMaster和Region server。主从模式。
5.Cassendra适合实时性要求比较高的场景,去中心化模式。
6.Mongo文档型KV存储,数据量规模“中等”,数据以Bson格式类似Json格式
7.Hive解决MR难于开发,以sql的方式直观简单易写易改的特点,不过速度慢
8.Pig是接近脚本方式去描述MapReduce
9.Phenix,Impala,Presto,Drill解决NoSQl数据库交互查询场景,牺牲稳定性通用性获取速度,底层HDFS,上面跑MapReduce/Tez/Spark,再上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求
10.Mahout是分布式机器学习库
11.Protobuf是数据交换的编码和库
12.ZooKeeper是高一致性的分布存取协同系统
13.Flume日志处理工具
1.Hadoop,大数据的鼻祖和基础。 解决存储(HDFS)和计算(MapReduce)。数据运行在磁盘上决定适合批处理任务,实时性低的场景。 NameNode和DataNode, 主从模式。
2.Storm,数据运行在内存中,适合流处理,实时性高场景,缺点不灵活,预先知道统计方式。Spout和Bolt,主从模式。
3.Spark,解决Hadoop运行速度问题,数据运行在内存中。但实时性上还是不如Storm。内存管理依赖JVM。趋势是根据Spark特点独自管理内存。
4.HBase适合数据仓库,实时性不好。 HMaster和Region server。主从模式。
5.Cassendra适合实时性要求比较高的场景,去中心化模式。
6.Mongo文档型KV存储,数据量规模“中等”,数据以Bson格式类似Json格式
7.Hive解决MR难于开发,以sql的方式直观简单易写易改的特点,不过速度慢
8.Pig是接近脚本方式去描述MapReduce
9.Phenix,Impala,Presto,Drill解决NoSQl数据库交互查询场景,牺牲稳定性通用性获取速度,底层HDFS,上面跑MapReduce/Tez/Spark,再上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求
10.Mahout是分布式机器学习库
11.Protobuf是数据交换的编码和库
12.ZooKeeper是高一致性的分布存取协同系统
13.Flume日志处理工具
发表评论
-
Canal相关理解
2017-12-29 16:18 462转载:http://www.importnew.com/251 ... -
kettle部署
2017-12-26 16:04 7251.将jmbi sql先上生产环境, 参考附件jmbi.sql ... -
crontab定时运行MR不行,手动shell可以执行成功问题排查过程
2017-12-26 15:48 863设置了定时任务,但MR任务没有执行。 第一步:手动执行she ... -
Flume+kafka+Spark Steaming demo2
2017-11-22 13:15 462一,flume配置 # Name the components ... -
Flume+Kafka+Spark Steaming demo
2017-11-21 15:21 445一.准备flume配置 a1.sources = r1 a1. ... -
HBase表导出成HDFS
2017-10-19 19:40 900导出步骤:在old cluster上/opt/cloudera ... -
zepplin实战
2017-10-13 16:10 362一句话介绍Zeppelin 以笔记(Note)的形式展示的数据 ... -
Azkaban安装
2017-10-10 18:32 906一.下载 https://github.com/azkaban ... -
KYKIN安装
2017-09-30 17:35 121. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
KYKIN安装
2017-09-30 17:40 3631. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
Logstash安装部署配置
2017-04-28 10:24 1034为了实现各业务平台日志信息采集到大数据平台hdf ... -
HBASE API
2017-04-18 11:01 475package org.jumore.test; impor ... -
Ambari卸载shell
2017-03-28 17:28 470#!/bin/bash # Program: # uni ... -
linux ssh 相互密码登录
2017-02-22 13:40 4171.修改集群各机器名称 vim /etc/sysconfig/ ... -
Kettle Linux 安装部署
2017-02-15 17:20 1360一.安装JDK环境:根据自己的linux系统选择相应的版本,比 ... -
hadoop环境搭建
2017-01-23 17:31 354192.168.23.231 server1 192.168. ... -
环境安装
2017-01-17 16:26 393物理机部署分配 3台物理机上部署 Zookeeper 3个,F ... -
Storm demo
2016-12-19 15:50 441public class SentenceSpout exte ... -
运行Hadoop jar 第三方jar包依赖
2016-08-22 13:47 1027将自己编写的MapReduce程序打包成jar后,在运行 ha ... -
windows10下运行MR错误
2016-07-05 13:45 1671当在windows下运行MR程序时,会报各种错误。现把这次碰到 ...
相关推荐
大数据平台技术框架选型是构建高效、稳定且适应企业需求的数据基础设施的关键步骤。在这个过程中,我们需要考虑各种技术组件,以确保能够处理不同类型的海量数据,同时提供高效的数据处理、分析和检索能力。以下是对...
理解大数据技术框架对于开发者、数据工程师和分析师至关重要,它不仅提供了处理海量数据的工具,也是实现数据驱动决策和创新的基础。随着技术的不断发展,大数据技术框架将持续演进,以适应不断变化的业务需求和挑战...
大数据平台技术框架选型 大数据平台技术框架选型是指选择合适的技术框架来搭建大数据平台,该框架需要满足平台的核心功能需求,包括数据存储、数据处理、数据分析等。下面是大数据平台技术框架选型的知识点总结: ...
大数据是指在传统数据处理工具无法有效管理和分析的海量、高速、多样化的信息资产。它包含了结构化、半结构化和非结构化数据,如交易记录、社交媒体信息、图像和视频等。大数据的价值体现在对隐藏模式的揭示、预测...
"bin.zip"可能包含了框架的可执行文件和脚本,这些工具通常用于部署、启动和管理BigCore框架。 总的来说,BigCore大数据高并发开发框架结合了mongodb和二级缓存技术,为开发高效、稳定的分布式系统提供了强大的工具...
大数据平台技术框架选型分析 大数据平台技术框架选型分析是指在大数据平台建设过程中,选择合适的技术框架来满足业务需求的过程。在这个过程中,需要考虑到多种因素,包括数据存储、数据接入、数据标准化、数据分析...
大数据技术是现代信息技术领域的重要组成部分,它涉及到一系列用于处理海量数据的工具和框架。这个名为“大数据技术工具.xmind”的思维导图,是为初学者设计的,旨在引导他们逐步探索大数据的世界。以下是对其中涉及...
总的来说,BigCore大数据高并发开发框架net版为.NET开发者提供了强大的工具,帮助他们应对大数据处理和高并发挑战,提升应用的性能和扩展性。其核心特性如MongoDB集成、二级缓存以及全面的开发支持,都体现了其在...
大数据技术框架选型是构建大数据平台时的一个重要环节,它涉及到选择何种技术、工具和架构来处理和分析大规模数据集。在给出的文件内容中,提到了众多的大数据技术和框架,下面将对这些内容进行知识点的详细解释。 ...
大数据平台技术框架选型是一项关键任务,涉及到一系列的技术决策,以构建高效、稳定且具有扩展性的数据管理系统。本文主要分析了大数据平台的核心需求、业务流程、选型思路、要求、评估标准以及各种方案的优缺点。 ...
通过对云南省道路运输业务系统和数据资源现状的深入分析,并结合不同大数据框架的优点,设计了一种融合架构的运政大数据云服务平台框架。该框架不仅能够应对海量道路运输数据的挑战,还能够满足高效、便捷、智能化的...
大数据技术基本框架主要涵盖以下几个核心领域,这些领域共同构建了处理海量数据的现代技术体系。 1. **数据组织**:大数据技术首先涉及到如何有效地组织和存储数据。这通常包括分布式文件系统,如Hadoop的HDFS,它...
### 大数据之接口框架基本要求详解 #### 一、高性能 大数据接口的高性能特性是其最基础的要求之一。为了确保大数据系统能够迅速响应并处理海量数据请求,接口需要具备强大的处理能力。这意味着接口需要采用高效的...
相关资料列举了多个开源工具,如Phoenix(SQL-on-HBase)、Tez(DAG计算框架)、Presto(分布式SQL查询引擎)等,这些都是构建大数据平台时可能用到的关键组件,它们各自在性能、易用性或特定场景下有其独特优势。...
总结起来,大数据权限管理框架是保护大数据资产的关键工具,它结合了先进的访问控制理论和实践,为大数据环境提供了安全、可控的数据访问路径。在实施过程中,需要充分考虑业务需求、系统架构和法规要求,以实现最佳...
本文将详细介绍Java开发者应该掌握的10大数据工具和框架,这些工具涵盖了数据库管理、搜索、分布式存储等领域,帮助开发者应对日益复杂的开发挑战。 1. **MongoDB** - MongoDB是一款非常受欢迎的NoSQL数据库,它以...
大数据框架是现代信息技术领域的重要组成部分,它涉及到一系列用于处理海量数据的工具和平台。本文将对其中的关键组件进行深入解析。 首先,我们关注Hadoop Distributed File System (HDFS)。HDFS是大数据处理的...