`

分布式与集群-知乎

 
阅读更多
1:分布式是指将不同的业务分布在不同的地方。 而集群指的是将几台服务器集中在一起,实现同一业务。

分布式中的每一个节点,都可以做集群。 而集群并不一定就是分布式的。

举例:就比如新浪网,访问的人多了,他可以做一个群集,前面放一个响应服务器,后面几台服务器完成同一业务,如果有业务访问的时候,响应服务器看哪台服务器的负载不是很重,就将给哪一台去完成。

而分布式,从窄意上理解,也跟集群差不多, 但是它的组织比较松散,不像集群,有一个组织性,一台服务器垮了,其它的服务器可以顶上来。

分布式的每一个节点,都完成不同的业务,一个节点垮了,哪这个业务就不可访问了。

2:简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。

例如:

如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行该任务需10小时。

采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型)

而采用集群方案,同样提供10台服务器,每台服务器都能独立处理这个任务。假设有10个任务同时到达,10个服务器将同时工作,10小时后,10个任务同时完成,这样,整身来看,还是10小时内完成一个任务!
分享到:
评论

相关推荐

    与 Hadoop 对比,如何看待 Spark 技术? - 知乎1

    MapReduce 是 Hadoop 的核心组件,提供了一个编程模型,可以在一个由几十台上百台的 PC 组成的不可靠集群上并发地、分布式地处理大量的数据集。 MapReduce 的抽象层次较低,需要手工编写代码来完成,使用上难以上手...

    分布式消息引擎Apache RocketMQ最佳实践

    #### 一、分布式消息与流处理领域 在分布式计算领域中,消息传递是一种重要的通信机制。通过消息系统可以实现不同服务之间的解耦,提高系统的可扩展性和可靠性。Apache RocketMQ作为一款高性能、高可用的消息中间件...

    知乎基于 Kubernetes 的 Kafka 平台探索和实践

    然而,像Kafka这样的分布式流处理系统,其部署和管理方式与传统的应用或服务有很大不同,Kubernetes的引入为这些复杂系统提供了新的管理和扩展能力。 Kafka是一个分布式流处理平台,最初由LinkedIn开发,现已成为...

    PyPI 官网下载 | zhihu-py3-0.3.10.tar.gz

    总的来说,"zhihu-py3-0.3.10.tar.gz"提供了一个与知乎平台交互的Python接口,其背后可能采用了分布式协调服务Zookeeper,符合云原生的开发原则。对于Python开发者,尤其是对知乎API有兴趣的开发者来说,这是一个...

    Python课程体系.docx

    - 通过Python实现对集群服务器进行批量自动化运维。 **主要知识点:** 1. **自动化运维基础** - Python自动化运维基础。 - 批量运维技术实战。 2. **系统安全与监控** - 自动化运维之系统安全管理与报表管理。 ...

    案例说明_知乎大数据之青年群体择偶观分析1

    学生需要理解分布式计算的基本原理,以及如何配置和管理这些集群。 8. **机器学习理论**:虽然案例中没有详细展开,但提到的文本聚类属于机器学习的一部分。学生应熟悉基础的机器学习概念,如监督学习、无监督学习...

    zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目.zip

    4. **分布式爬虫**:项目支持分布式,可能涉及Apache Hadoop或Spark等大数据处理框架,以及如Mesos或Kubernetes等集群管理工具。 5. **数据库存储**:爬取的数据可能需要存储在数据库中,如MySQL、MongoDB等,需要...

    使用rabbitmq解决超卖问题

    - 由于RabbitMQ不支持分布式事务,因此需要采用补偿机制,如两阶段提交或TCC(Try-Confirm-Cancel)模式,确保库存扣除与订单创建同步完成。 4. **批量处理与限流**: - 为了提高效率,可以批量从队列中获取并...

    kafka的topic小工具

    Kafka是一个分布式流处理平台,广泛应用于大数据实时处理、消息传递等场景。 描述中提到的“kafka工具”具有以下功能: 1. **连接Kafka集群**:工具能够连接到运行中的Kafka集群,获取集群状态信息。 2. **查看所有...

    zkui(zookeeper的可视化工具)

    Zookeeper 是一个分布式的,开放源码的分布式应用程序协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终将简单易用的接口和性能高效、功能稳定的系统提供给用户。...

    jmqtt:基于Netty和Zookeeper的分布式MQTT代理

    Apache ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终将简单易用的接口和性能高效、功能稳定的系统提供给...

    华为大数据FusionInsight HD解决方案

    - **分布式资源管理**:如YARN,用于统一管理和调度集群中的计算资源。 - **分布式计算引擎**:如MapReduce、Spark、Storm等,满足不同场景下的计算需求。 - **数据处理工具**:包括HDFS(分布式文件系统)、HBase...

    elasticluster:在云上创建VM集群,并使用Ansible配置它们

    5. **集群扩展与收缩**:允许动态调整集群规模,满足不同负载的需求。 在集群创建过程中,Elasticluster结合了Ansible进行自动化配置。Ansible是一种流行的IT自动化工具,能够进行配置管理、应用部署、任务执行等。...

    大数据学习路径思维导图.pdf

    - **Ganglia**: 是一个大规模分布式监控系统,用于监控集群的性能,如检测Put与Take事务的尝试次数和成功次数,并允许调整拉取batch大小。 7. **MySQL主从复制** - 主库将改变记录写入二进制日志(binarylog)中,...

    PostgreSQL高可用方案比较说明书.pdf

    PAF是一个用Perl编写的开放集群框架兼容的解决方案,它与Pacemaker和Corosync协作,提供故障检测、恢复和自动故障切换。当主服务器出现不可恢复的故障时,PAF会选择最佳的备用服务器进行故障切换。PAF的设置要求包括...

    自己动手写网络爬虫

    - **分布式爬虫系统**:介绍如何构建大规模的分布式网络爬虫集群。 - **智能爬虫**:结合机器学习算法实现更加智能的爬虫逻辑,如自动识别页面结构变化等。 - **法律与伦理问题**:讨论在网络爬虫活动中需要注意的...

    Hive原理分析

    在开始了解hive之前,需要了解一些知识或者概念,可以更好的理解hive实现原理GoogleMapReduce是Google基于函数式编程map(映射),reduce(化简)提出的一种分布式编程模型,在模型中隐藏了分布式集群的实现细节,交...

    COMP9313 big data MapReduce

    MapReduce模型能够利用大量廉价的商用计算机集群,并以分布式的处理方式执行任务。它能够保证高可用性,即使面对软件错误和硬件故障也能正常工作。 MapReduce的关键动机在于解决大数据处理过程中的常见难题,例如...

Global site tag (gtag.js) - Google Analytics