`
- 浏览:
2624072 次
- 性别:
- 来自:
广州
-
首先是我关注的安全方面,阿里并没有采用keberos,而是在用户和用户组的基础上加了个密码,用这个来防止用户的冒充。对于其他组的数据的访问用的是 资源注册和申请。然后所有的这些事情也都是在namenode上面做的。
他们采用的客户端是用跳板机的形式来做初步的安全。
目前来看他们的规模并不是很大,3000台左右的机器,150个用户组,4500个用户,经常用的是1500个用户。
namenode无疑会是瓶颈,他们做的一个优化是读写锁,怎么实现我比较好奇。
其他的一些优化是ip漂移,动态的心跳时间。
在保证系统的稳定上市做了很多的限制,如每个task最大使用内存,一个任务最大使用资源之类的。
在负载均衡上说是可以动态的调节map或reduse的task,我比较好奇。
说他们很大的一个困惑是如何快速找bug,和量化效果,如升级前后如何对比效果。
他们最ha的一个很大的目的是为了更好的升级。
他们几乎兼容所有的hadoop版本,甚至不少内部版本,这个难度也不小啊。
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
在深入探讨阿里Hadoop集群架构及服务体系的知识点前,首先需要明确Hadoop本身是大数据处理框架的核心技术,由Apache基金会开发,广泛应用于海量数据的存储和分析。其设计目的是从数以千计的服务器中处理PB级别的数据...
比较在IDC自建Hadoop集群与使用MaxCompute服务的成本差异,包括硬件投资、运维成本等多个维度。 综上所述,Hadoop和MaxCompute各有优势,选择哪种方案取决于企业的具体需求和技术背景。如果企业更倾向于自主控制...
- **NameNode**:作为Hadoop集群的主节点,负责管理和协调HDFS中的元数据,包括文件如何被分割成块以及这些块存储在哪里。 - **Secondary NameNode**:辅助NameNode,主要用于合并fsimage和editlogs文件,减轻...
阿里云E-MapReduce是阿里巴巴对外提供的Hadoop基础服务,它将Hadoop集群部署在云上,简化了企业的维护成本和使用门槛。用户不再需要自己搭建和管理复杂的Hadoop集群,只需要通过云服务即可获得Hadoop的计算能力。 ...
HBase on OSS利用阿里云对象存储服务(OSS)作为底层存储,提供了无限的存储空间,可以满足TB、PB级的存储需求。在写吞吐方面,HBase能够高效率地处理数据写入操作,不受固态硬盘(SSD)随机写入放大问题的影响。...
### 构建生态化分布式数据库架构体系 #### 关键词: - MySQL协议 - Schema垂直拆分 - Table水平拆分 - 实时日志解析 - 事务顺序 - 实时镜像 - 双向同步 - 同步事务支持 - GlobalID - GlobalFailover #### 分布式...
阿里巴巴淘宝平台通过构建多层次的技术架构体系,有效地解决了海量数据处理的难题。从数据采集到存储、计算再到最终的产品实现,每个环节都经过精心设计和优化,确保了系统的高性能和高可靠性。尤其是MyFOX和Prom的...
### Hadoop技术体系详解 #### 一、Hadoop概述与背景 Hadoop是一种开源软件框架,主要用于处理和存储海量数据。随着互联网的发展,数据量急剧增加,传统的数据处理方法已经无法满足需求。为了应对PB级别的数据存储...
2. 在阿里云架构上搭建整个数仓体系,学会运用阿里云上的各项服务组件,并理解组件之间的联动关系; 3. 掌握必要的前置知识,包括SQL语法、Linux命令以及对Hadoop大数据体系的基本了解。 数仓概念部分主要介绍了...
本文将以阿里巴巴集团的数据发展作为主线,梳理其在大数据领域的实践与探索,尤其关注其数据中台架构的发展和应用。 ### 阿里巴巴大数据发展历程 #### 时间线 1. **2009年:** 阿里巴巴确定了自己“数据公司”的...
3. **分布式计算与存储**:为应对海量数据处理,阿里巴巴采用Hadoop、Spark等大数据处理框架,构建大规模分布式计算集群。同时,自研的OceanBase分布式数据库解决了传统数据库在高并发下的性能瓶颈,保证了交易数据...
3. 微服务架构:近年来,微服务成为云计算体系架构的一种趋势,它将大型应用拆分为一组小而独立的服务,每个服务都有自己的数据库和API接口,易于部署、扩展和维护。 四、云服务提供商 全球知名的云服务提供商包括...
4. **分布式系统**:阿里巴巴的开源项目Dubbo是一款高性能、轻量级的Java服务治理框架,用于实现微服务架构。另一个关键项目Seata则致力于解决分布式事务一致性问题,为分布式系统提供强一致性的解决方案。 5. **...
1. **数据集成**:支持多种数据源接入,包括关系型数据库、NoSQL数据库、Hadoop集群等,实现一站式数据集成。 2. **数据开发**:提供图形化的开发界面,支持SQL、MapReduce等多种数据处理方式,方便用户进行复杂的...
YARN是一种通用的资源调度体系,它支持多种计算框架(如MapReduce、Spark、Storm等),让它们能够在同一个集群上运行。YARN的核心是资源管理器ResourceManager(RM),它将资源管理和作业调度/监控功能分离成两个...