`
macintosh
  • 浏览: 11983 次
社区版块
存档分类
最新评论

转 基于NUMA架构的高性能服务器技术(1)

阅读更多
参考http://doc.linuxpk.com/42689.html

NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛,许多厂商都成功推出了基于 NUMA 架构的服务器,本文重点讨论了当前 Linux 的 NUMA 技术,主要包括:存储管理、NUMA 调度和用户层的 API,并在 SGI 的 Altix 350 系统上进行了 NUMA 基本测试,对进行 Linux NUMA 技术的研究具有参考价值。

  一、引言

  随着科学计算、事务处理对计算机性能要求的不断提高,SMP(对称多处理器)系统的应用越来越广泛,规模也越来越大,但由于传统的 SMP 系统中,所有处理器都共享系统总线,因此当处理器的数目增大时,系统总线的竞争冲突加大,系统总线将成为瓶颈,所以目前 SMP 系统的 CPU 数目一般只有数十个,可扩展能力受到极大限制。NUMA 技术有效结合了 SMP 系统易编程性和 MPP(大规模并行)系统易扩展性的特点,较好解决了 SMP 系统的可扩展性问题,已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于 NUMA 架构的高性能服务器,如 HP 的 Superdome、SGI 的 Altix 3000、IBM 的 x440、NEC 的 TX7、AMD 的Opteron 等。随着 Linux 在服务器平台上的表现越来越成熟,Linux 内核对 NUMA 架构的支持也越来越完善,特别是从 2.5 开始,Linux 在调度器、存储管理、用户级 API 等方面进行了大量的 NUMA 优化工作,目前这部分工作还在不断地改进,如新近推出的 2.6.7-RC1 内核中增加了 NUMA 调度器。本文主要从存储管理、调度器和 CpuMemSets 三个方面展开讨论。

  二、NUMA 存储管理

  NUMA 系统是由多个结点通过高速互连网络连接而成的,如图 1 是 SGI Altix 3000 ccNUMA 系统中的两个结点。

  


  


  
图 1 SGI Altix3000 系统的两个结点


  NUMA 系统的结点通常是由一组 CPU(如,SGI Altix 3000 是 2 个Itanium2 CPU)和本地内存组成,有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存,因此全系统的内存在物理上是分布的,每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的,为了减少非一致性访存对系统的影响,在硬件设计时应尽量降低远地内存访存延迟(如通过 Cache 一致性设计等),而操作系统也必须能感知硬件的拓扑结构,优化系统的访存。

  目前 IA64 Linux 所支持的 NUMA 架构服务器的物理拓扑描述是通过 ACPI(Advanced Configuration and Power Interface)实现的。ACPI 是由 Compaq、Intel、Microsoft、Phoenix 和 Toshiba 联合制定的 BIOS 规范,它定义了一个非常广泛的配置和电源管理,目前该规范的版本已发展到 2.0,3.0 版本正在制定中,具体信息可以从 http://www.acpi.info 网站上获得。ACPI 规范也已广泛应用于 IA-32 架构的至强服务器系统中。

  Linux 对 NUMA 系统的物理内存分布信息是从系统 firmware 的 ACPI 表中获得的,最重要的是 SRAT(System Resource Affinity Table)和 SLIT(System Locality Information Table)表,其中 SRAT 包含两个结构:

  Processor Local APIC/SAPIC Affinity Structure:记录某个 CPU 的信息;

  Memory Affinity Structure:记录内存的信息;

  SLIT 表则记录了各个结点之间的距离,在系统中由数组 node_distance[ ] 记录。

  Linux 采用 Node、Zone 和页三级结构来描述物理内存的,如图 2 所示

  


  


  
图 2 Linux 中 Node、Zone 和页的关系


  2.1 结点

  Linux 用一个 struct pg_data_t 结构来描述系统的内存,系统中每个结点都挂接在一个 pgdat_list 列表中,对 UMA 体系结构,则只有一个静态的 pg_data_t 结构 contig_page_data。对 NUMA 系统来说则非常容易扩充,NUMA 系统中一个结点可以对应 Linux 存储描述中的一个结点,具体描述见 linux/mmzone.h。

  typedef struct pglist_data {

  zone_t node_zones[MAX_NR_ZONES];

  zonelist_t node_zonelists[GFP_ZONEMASK+1];

  int nr_zones;

  struct page *node_mem_map;

  unsigned long *valid_addr_bitmap;

  struct bootmem_data *bdata;

  unsigned long node_start_paddr;

  unsigned long node_start_mapnr;

  unsigned long node_size;

  int node_id;

  struct pglist_data *node_next;

  } pg_data_t;

  下面就该结构中的主要域进行说明

  


  


  系统中所有结点都维护在 pgdat_list 列表中,在 init_bootmem_core 函数中完成该列表初始化工作。

  2.2 Zone

  每个结点的内存被分为多个块,称为zones,它表示内存中一段区域。一个zone用struct_zone_t结构描述,zone的类型主要有ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的内存空间,用于某些旧的ISA设备。ZONE_NORMAL的内存直接映射到Linux内核线性地址空间的高端部分,许多内核操作只能在ZONE_NORMAL中进行。例如,在X86中,zone的物理地址如下:

  


  


  Zone是用struct zone_t描述的,它跟踪页框使用、空闲区域和锁等信息,具体描述如下:

  typedef struct zone_struct {

  spinlock_t lock;

  unsigned long free_pages;

  unsigned long pages_min, pages_low, pages_high;

  int need_balance;

  free_area_t free_area[MAX_ORDER];

  wait_queue_head_t * wait_table;

  unsigned long wait_table_size;

  unsigned long wait_table_shift;

  struct pglist_data *zone_pgdat;

  struct page *zone_mem_map;

  unsigned long zone_start_paddr;

  unsigned long zone_start_mapnr;

  char *name;

  unsigned long size;

  } zone_t;

  下面就该结构中的主要域进行说明

  



  当系统中可用的内存比较少时,kswapd将被唤醒,并进行页交换。如果需要内存的压力非常大,进程将同步释放内存。如前面所述,每个zone有三个阈值,称为pages_low,pages_min和pages_high,用于跟踪该zone的内存压力。pages_min的页框数是由内存初始化free_area_init_core函数,根据该zone内页框的比例计算的,最小值为20页,最大值一般为255页。当到达pages_min时,分配器将采用同步方式进行kswapd的工作;当空闲页的数目达到pages_low时,kswapd被buddy分配器唤醒,开始释放页;当达到pages_high时,kswapd将被唤醒,此时kswapd不会考虑如何平衡该zone,直到有pages_high空闲页为止。一般情况下,pages_high缺省值是pages_min的3倍。

  Linux存储管理的这种层次式结构可以将ACPI的SRAT和SLIT信息与Node、Zone实现有效的映射,从而克服了传统Linux中平坦式结构无法反映NUMA架构的缺点。当一个任务请求分配内存时,Linux采用局部结点分配策略,首先在自己的结点内寻找空闲页;如果没有,则到相邻的结点中寻找空闲页;如果还没有,则到远程结点中寻找空闲页,从而在操作系统级优化了访存性能。
分享到:
评论

相关推荐

    基于numa架构的tcmalloc内存管理算法

    在讨论基于NUMA架构的TCMalloc内存管理算法之前,我们先来深入了解NUMA架构和TCMalloc算法的概念及其在内存管理中的作用。 NUMA(Non-Uniform Memory Access)架构是一种多处理器架构,其中每个处理器(CPU)有其...

    CC-NUMA架构下4路龙芯3B服务器设计与实现.pdf

    1. 服务器设计:本文介绍了基于CC-NUMA架构的4路龙芯3B服务器的设计思路和实现方法,涵盖了服务器核心模块的设计、TOE芯片的应用和10G以太网接口的优化。 2. 高性能计算:该服务器可以实现高效的并行计算能力,满足...

    网络游戏-基于NUMA高性能网络处理器负载的虚拟处理器调度方法.zip

    基于NUMA高性能网络处理器负载的虚拟处理器调度方法》这一资料主要探讨了在网络游戏中如何有效利用非统一内存访问(Non-Uniform Memory Access, NUMA)架构下的高性能网络处理器来优化虚拟处理器的调度,从而提升...

    高性能服务器架构设计和调优

    ### 高性能服务器架构设计与调优 #### 一、高性能服务器架构设计概述 ...以上内容详细阐述了高性能服务器架构设计与调优的核心技术和策略,通过对这些关键点的理解与实践,可以显著提升服务器的性能表现。

    vSphere NUMA技术架构概述.pptx

    vSphere NUMA(Non-Uniform Memory Access)技术是VMware vSphere虚拟化平台中的一个重要特性,它优化了大型虚拟机(VMs)在多核服务器上的内存...这对于运行内存密集型工作负载或需要高性能计算能力的应用尤其关键。

    基于ATCA架构的龙芯服务器刀片设计

    综上所述,本文详细介绍了一款基于ATCA架构的龙芯服务器刀片设计,它融合了高性能计算技术与嵌入式系统的紧凑特性,通过高可靠设计和智能监控,为嵌入式计算平台提供了强大的处理能力和稳定的运行保障。这一设计对于...

    vSphere NUMA高级技术架构分析.pptx

    总的来说,vSphere NUMA架构是通过智能调度和资源分配来优化多核系统内存访问,提升虚拟机性能的关键技术。它允许在虚拟化环境中维持较高的内存访问速度,同时降低延迟,尤其对需要大量内存和计算资源的应用程序至关...

    服务器系统架构SMP&NUMA&MPP.doc

    NUMA架构设计允许更多的CPU(甚至上百个)集成在同一服务器中,但CPU访问内存的时间因位置不同而异。每个CPU模块拥有独立的本地内存和I/O资源,通过互联模块与其他模块通信。尽管NUMA系统中的CPU可以访问全局地址...

    vSphere NUMA技术架构概述.pdf

    这种配置提供了可预测的、一致的高性能和低延迟内存访问特性。 ##### 2.3 NUMA客户端 在vSphere环境中,ESXi将虚拟机的vCPU和内存资源组合成一个名为NUMA客户端的单元。NUMA客户端被放置在一个NUMA节点内,即物理...

    服务器三大体系SMP、NUMA、MPP研讨.docx

    在NUMA架构中,服务器被划分为多个节点,每个节点拥有独立的本地内存和其他资源(如CPU)。节点间通过高速互联组件进行通信,使得每个处理器不仅可以访问本地内存,还可以访问其他节点的内存。然而,访问本地内存的...

    服务器三大体系SMP、NUMA、MPP介绍.docx

    尽管NUMA架构支持大量处理器,但由于远程内存访问延迟较高,随着CPU数量的增加,系统的整体性能提升并非线性的。 #### MPP(Massive Parallel Processing 海量并行处理架构) **定义及特点** MPP架构提供了一种...

    双皓龙内存设置和NUMA系统

    对于那些需要频繁跨所有内存区域进行操作的应用程序,如高性能计算、大数据处理或者某些工作站应用,NUMA可能会导致性能下降。 在双皓龙系统的BIOS设置中,NUMA的开启与关闭可以通过“Advanced Chipset Control - ...

    HPC高性能计算知识-计算架构演进.docx

    本文档主要讲述了 HPC 高性能计算知识中的计算架构演进,涵盖了计算架构的发展史、MPI、OpenMPI 和 OpenMP 的概念区别、SMP、NUMA 和 MPP 等高性能计算架构模式的特征和优缺点。 计算架构演进 HPC 高性能计算系统...

    服务器技术与应用.pptx

    此外,高性能存储技术如SCSI接口和RAID(独立磁盘冗余阵列)提供了快速数据传输和数据保护。 SCSI是一种广泛使用的服务器I/O接口,支持高速数据传输,而RAID技术通过磁盘冗余实现数据安全性,分为软阵列和硬阵列,...

    基于龙芯3A处理器的加固服务器设计与实现.pdf

    《基于龙芯3A处理器的加固服务器设计与实现》这篇技术文档主要探讨了如何构建一个高性能、高可用性的加固服务器,以提升数据库服务器系统的处理能力和可靠性。文章详细介绍了服务器的硬件设计,包括服务节点、计算...

    鲲鹏服务器高性能计算.pptx

    2. **互联架构:**鲲鹏服务器采用了诸如HyperTransport和NVLink等高速互联技术,这些技术提供了高带宽、低延迟的数据通信能力,这对于数据密集型的高性能计算(HPC)应用至关重要。 3. **节点架构:**鲲鹏服务器采用...

    华南理工大学《高性能计算与云计算》复习资料1

    1. PVP(并行向量处理机):这种架构主要用于高性能计算,由少数特制的向量处理器构成,通过高带宽交叉开关网络连接共享存储器,不依赖高速缓存,而是使用向量寄存器和指令缓冲器。 2. SMP(对称多处理机):SMP...

    服务器硬件架构[汇编].pdf

    根据给定的文件信息,我们可以提炼出以下关于服务器硬件架构的知识点,主要集中在服务器处理器的演进、内存技术的发展、以及服务器硬件的通信技术几个...了解这些知识点对于设计和维护现代高性能服务器是至关重要的。

Global site tag (gtag.js) - Google Analytics