`
qiezi
  • 浏览: 497198 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

并行/分布式集群的一点想法

阅读更多
最近在构思一个并行/分布式集群的平台架构,用来解决目前很多服务器无法动态扩容的问题,在过去的一些分布式项目中积累了一些经验,这些架构都是对这些项目共同点的抽象。

给它定义了一些特性,先记下来:

* 集群由多台服务器组成,每台服务器安装最基本的运行时平台;
* 平台负责集群内节点间通讯、应用实例的管理;
* 平台是多进程架构,任何应用都是独立的用户进程,使用IPC来通讯;
* 平台内底层通讯使用节点方式,类似Erlang的PID;
* 应用的实例对Pid不可见,它一般只使用其它应用的接口,通过应用ID和接口来访问,不关心其它应用的部署位置,所有应用都是位置无关的;
* 应用实例运行的位置由平台来调度,调度根据应用对自身的描述,比如对并行计算要求较高的应用可以分布在很多计算性能高的节点上,对内存要求高的应用分布在内存大的节点上,负责存储的应用只能固定在节点上。
* 应用可以动态地在节点上迁移、扩展,无状态应用总是可以任意迁移,有状态应用如果实现了迁移接口,也可以进行迁移;
* 平台负责应用实例的监督、启动、关闭等;
* 平台负责应用的安装、卸载、部署、启动、关闭、热升级、版本替换、监控、统计、报警等;
* 平台上的编程都是基于接口的,类似COM组件接口;
* 应用都是动态链接库,使用平台专有的loader在最低权限的用户下运行;
* 平台支持通用的配额管理策略,提供资源的应用可以注册资源的配额计算方式,使用资源的应用被平台的配额管理限制;
分享到:
评论
3 楼 fredzhang 2008-09-16  
还没遇到,我做的就是一个map/reduce框架,没涉及到状态。
2 楼 qiezi 2008-09-14  
我这边也大量使用了这种方式,目前还在逐步推广中。。

如果是有状态的应用,数据可修改的情况下加机器再减下去就会造成不一致,这方面遇到过问题吗?
1 楼 fredzhang 2008-09-11  
我现在做的一个框架采用了consistent hashing,这样服务器可以动态增加或者DOWN机,而影响的机器最多只有2台,效果很好

相关推荐

    并行与分布式技术 关于KMeans算法的并行和分布式代码

    目标:提供并行和分布式实现的KMeans算法,以加速大规模数据集的聚类过程,并能够有效利用集群计算资源。 其他说明: 并行化和分布式实现通常涉及到使用多线程、多进程、分布式计算框架(如Apache Spark)等技术。 ...

    并行和分布式计算本科核心课程(英文).pdf

    并行和分布式计算本科核心课程的目标是将广泛的并行和分布式计算(PDC)技术知识传授给计算机科学家和工程师,以便他们能够为消费者提供迅速变化但有效、高效和可靠的技术。本文由多位专家联合撰写,概述了当前并行...

    基于Hadoop的分布式集群大数据动态存储系统设计.pdf

    为了解决这些问题,本文提出了一种基于Hadoop的分布式集群大数据动态存储系统的设计方案。 首先,需要明确Hadoop在大数据处理中的地位和作用。Hadoop是一个开源的分布式存储和计算平台,它提供了一套完整的生态系统...

    分布式集群存储及其优势浅析.pdf

    分布式集群存储是一种将多个独立的存储设备通过网络连接起来,使其工作起来像单一的、功能更强大的存储系统的技术。这种架构能够提供高可靠性和扩展性,并能处理大规模数据。它为当前存储系统从传统架构向更新的集群...

    分布式计算、并行计算及集群、网格、云计算的区别.docx

    分布式计算、并行计算、集群计算、网格计算和云计算的区别 分布式计算、并行计算、集群计算、网格计算和云计算是当前计算机领域中几个热门的概念,为了帮助读者更好地理解这些概念,我们将从它们的定义、特点、应用...

    基于Hadoop架构的国产化分布式集群平台.pdf

    尤其是在军事信息系统中,大数据分析和数据安全的需求推动了分布式集群平台的发展,而国产化软硬件在其中扮演着举足轻重的角色。基于Hadoop架构的国产化分布式集群平台的构建,不仅是一种技术上的革新,更是适应...

    MySQL分布式集群部署文档集合

    本篇将详细讲解基于提供的文件名所涵盖的三个关键知识点:MySQL双机集群、MySQL AB Cluster以及MySQL分布式集群部署。 1. MySQL双机集群: 双机集群,也称为主备复制,是一种常见的高可用性解决方案。在这个配置中...

    面向大数据的分布式并行集群存储技术研究.pdf

    在这样的背景下,分布式并行集群存储技术应运而生,它不同于传统的存储架构,提供了更高的弹性扩展性,能够满足大数据时代对于数据处理和存储的需求。 分布式内存数据库技术原理是分布式并行集群存储技术的核心。...

    Python-CharmPy是一个通用的并行和分布式编程框架

    Python-CharmPy是Python编程领域的一个强大工具,它为开发者提供了通用的并行和分布式编程解决方案。这个框架的核心优势在于其简单易用的API,它允许用户通过可迁移的Python对象和远程方法调用来实现复杂的并行计算...

    机器学习项目实战(内含单机/分布式/深度学习)部署

    Apache Spark是常用的分布式计算框架,它可以处理大量数据并行运算。通过Spark MLlib库,可以实现分布式机器学习模型训练。Hadoop MapReduce也是另一种分布式处理方式,适合批处理任务。在部署上,通常会使用YARN或...

    Hadoop搭建完全分布式集群

    本篇文章将深入探讨如何搭建一个完整的Hadoop分布式集群,特别关注Java编程环境下的配置和操作。 首先,我们需要理解Hadoop的架构。Hadoop由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce...

    1_Mars_numpy与pandas的并行和分布式加速器_秦续业1

    【火星(Mars):Numpy 和 Pandas 的并行与分布式加速器】 在当前的IT行业中,Python语言因其简洁的语法和丰富的库支持而变得越来越流行,特别是在人工智能(AI)领域,机器学习项目的实施过程中,数据处理经常成为...

    hadoop 分布式集群大数据云计算源码视频教程.zip

    MapReduce是Hadoop的核心,它将大型数据集分割成小块,并在分布式集群的多个节点上并行处理。"MapReduce体系架构"章节会深入讲解Map阶段的数据拆分与映射,以及Reduce阶段的数据聚合与汇总,帮助理解这一分布式计算...

    基于分布式集群运算的渲染农场的研究与构建.pdf

    分布式集群运算则是指将计算任务分解后,分布在多个节点上进行并行处理的计算方式。在渲染农场的上下文中,这意味着将渲染任务拆分成多个小任务,然后利用网络中的多个计算节点同时进行处理,大大缩短了渲染所需的...

    matlab分布式集群方案和例程

    标题“matlab分布式集群方案和例程”涉及的是在MATLAB环境中实现分布式计算的方法和实践。MATLAB,全称为矩阵实验室,是MathWorks公司开发的一种数值计算软件,它支持并行计算,允许用户利用多核处理器、GPU(图形...

    Hadoop伪分布式集群环境搭建

    本篇将详细介绍如何在本地计算机上搭建Hadoop的伪分布式集群环境,这非常适合初学者进行学习和测试。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由两个核心组件构成:HDFS(Hadoop Distributed File System)...

    分布式计算、并行计算及集群、网格、云计算的区别.pdf

    分布式计算、并行计算及集群、网格、云计算的区别.pdf

    并行与分布式计算动态负载均衡策略综述.pdf

    并行与分布式计算动态负载均衡策略综述的知识点: 一、并行与分布式计算基础 并行与分布式计算是现代计算机科学中的重要分支,主要针对大规模、复杂的数据处理和计算任务。随着计算机硬件的发展,多核处理器成为...

    Hadoop-搭建分布式集群.docx

    【Hadoop 分布式集群搭建】 Hadoop 是一个开源的分布式系统基础设施,由 Apache 基金会开发,旨在让开发者能够在不了解分布式系统底层细节的情况下编写分布式应用程序。Hadoop 的核心组件包括分布式文件系统(Hadoop...

    基于规则的分布式集群运算系统研究.pdf

    在分布式集群运算系统中,任务通常被拆分成多个子任务,由不同的节点并行处理,从而缩短总体运算时间,提高系统效率。 分布式系统的特点主要包括分布式处理、集群调度、负载均衡、数据分布和容错能力。分布式处理...

Global site tag (gtag.js) - Google Analytics