阅读更多
引用
作者简介:文刘飞,杉岩数据联合创始人 引擎架构师

编者按:服务器虚拟化技术在提高服务器利用率的同时,也消耗了大量的CPU、内存和网络带宽资源,本文从存储卸载加速的背景出发,探讨基于分布式存储的Windows ODX的实现与优化。

1.存储卸载加速的背景
服务器虚拟化成为数据中心的主流技术,大量运行的虚拟机大大提高了服务器的利用率,对虚拟机进行批量的创建、复制、迁移极大的简化了IT运维的同时,也带来了大量的数据拷贝操作,进而消耗了服务器的大量CPU、内存和网络带宽资源。

针对于这些问题,VMware提出了VAAI(vStorage API for Array Integration)接口,希望将VMware基础架构的某些功能委托给存储阵列去实现,通过减少数据对于虚拟机和物理服务器的资源消耗,从而提升VMware基础架构的性能。

同时,Microsoft也在Windows 8或Windows Server 2012中新增了卸载数据传输(Offloaded Data Transfer ODX)这一功能,期望把数据拷贝功能卸载到存储硬件中,降低虚拟化服务器的开销。

本文将和您一起探讨Windows ODX的实现与优化

通过配合支持卸载的存储硬件使用,ODX可在不占用 Hyper-V 宿主机 CPU 资源的情况下通过存储设备执行文件复制操作,由存储设备直接从一个存储位置读取数据,并写入到另一个位置。卸载数据传输的设计符合T10 XCOPY Lite规范,对数据拷贝加速进行了端到端的设计,理论上支持在不同存储厂商的存储设备之间进行数据复制。

2.ODX实现原理概述
ODX使用基于令牌的机制在智能存储阵列内部或之间复制数据。待复制的源文件和目标文件可以在同一个卷上、同一服务器管理的两个不同卷、或者多个服务器共享的群集共享卷上。

令牌是一个512字节的随机数,令牌代表了一个或多个extent(最多128MB的实际数据),一般是一个文件或文件的一部分。令牌由存储控制器通过哈希算法产生,同时令牌具有一定的生命周期。因此微软一直认为安全性和兼容性是Windows ODX区别于 VMware VAAI的一个显著特征。

由于传给主机的是代表数据的令牌,而不是数据本身,因此大大提高了数据复制的性能。同时由于ODX的命令交互比较多,因此ODX文件复制要求文件至少为256KB,太小的文件所产生的开销会使得XCOPY操作变得没有任何意义。

图1 Windows ODX基于令牌的复制操作

如上图所示,利用ODX实现数据复制的主要操作流程如下所示:
  • 用户通过Windows Explorer或命令行执行文件复制/移动。
  • Windows 8或Windows Server 2012发送一个读请求给存储控制器要求执行数据拷贝(POPULATE_TOKEN命令,包含了源LBA/Block length pair list)
  • 存储控制器创建代表数据的令牌并发送回主机(SP创建PIT token)
  • 主机使用令牌发起写请求给存储控制器(WRITE_USING_TOKEN命令,包含一个目标LBA/Block length pair list)
  • 存储控制器根据令牌信息,验证令牌的有效性和源数据位置,并把数据传输数据到目标位置。
  • 最后存储控制器把ODX复制的结果发送给主机(主机使用RECEIVE_ROD_TOKEN_INFORMATION命令查询结果)

为了实现ODX功能,ODX增加了如下几个SCSI命令:
  • POPULATE_TOKEN命令,发送卸载读请求给存储控制器,请求针对虚拟磁盘LUN A的某段数据产生一个数据令牌。
  • WRITE_USING_TOKEN命令,携带数据令牌发送卸载写请求给存储控制器,请求把该令牌所代表的数据复制到指定位置。
  • RECEIVE_ROD_TOKEN_INFORMATION 命令,发送卸载查询请求给存储控制器,查询卸载读/写的结果。

3.ODX在分布式存储的优化

3.1令牌的管理和同步
对于分布式存储集群,通常会提供多个存储控制器来实现IO的并发访问以及IO路径的高可用(如图2所示)。同时Windows服务器通过iSCSI MPIO和分布式存储连接以后,ODX可能会对不同的存储控制器分别下发POPULATE_TOKEN命令和WRITE_USING_TOKEN命令。这就要求某一个存储控制器产生的数据令牌需要和其他存储控制进行实时同步。同时令牌具有一定的生命周期, 因此存储控制器需要保证数据令牌的唯一性,并且定期清理已经过期的数据令牌。

图2 提供多个ISCSI服务端的分布式存储集群


3.2 ODX相关参数调优
ODX进行数据复制时,默认传输的一个数据片段大小为64MB,支持传输的最大数据片段为256MB。由于不同的分布式存储环境,所配置的HDD、SSD磁盘数量各不相同,因此不同环境最有的数据传输切片大小也各不一样。ODX支持通过存储的VPD描述去建议最优的数据切片大小。因此可以结合分布式存储的配置情况,选择最优的数据传输片段大小。

考虑到分布式存储在产生数据令牌时,需要在各存储控制器之间通过网络进行实时同步,时延开销比较大,因此可以通过配置参数,最大化数据令牌所代表的数据块大小,减少POPULATE_TOKEN命令的发送次数。

3.3 ODX相关的流量控制以及一些异常处理
ODX进行数据复制时,通常都是大数据块的读写,这样会对存储服务器的硬盘带来很大的压力,进而影响对其他IO业务的处理。因此有必要在同时存在其他业务IO时,对ODX相关的IO做一定的流量限制。

在某些异常场景,WRITE_USING_TOKEN命令的目标位置和源文件位置会发生重叠,这样有可能会导致数据处理不正确,因此在执行写操作前需要增加一些位置校验。

4.ODX的优化效果
杉岩数据的SandStone UPS作为企业级软件定义存储产品,对Windows ODX实现了完美的支持,借助ODX,SandStone UPS大大节省服务器的网络带宽和CPU资源。下图为Windows 2012服务器通过1G网络连接SandStone USP进行数据复制的测试。

从任务管理器可以看到,在做数据复制时,网络带宽和内存、CPU消耗都不大,特性是网络带宽只占用了200K左右,但是数据复制显示的速度平均有200MB,远超过1G网络带宽的限制。(说明一下:200k是Windows和存储控制器直接带宽,Windows只是发送控制命令,实际的数据传输是在存储网络间进行的。)

以上,就是我们在Windows ODX上的具体优化实践,本着开放、务实的技术理念,未来,将积极吸取行业的优秀经验和技术产品,从而为用户打造一套更加完善的需求解决方案。(责编/魏伟)
  • 大小: 69.9 KB
  • 大小: 120.7 KB
  • 大小: 144.8 KB
1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • AUTOSAR从入门到精通-中间件通信DDS(三)

    DDS(Data Distribution Service数据分发服务)是对象管理组织OMG的有关分布式实时系统中数据发布的一个较新的规范(2004年12月发布1.0版,2007年1月发布1.2版)。DDS规范采用了发布/订阅体系结构,但对实时性要求提供更...

  • 开发者必看!Windows Server 2012全攻略

    品牌:微软操作系统1Windows Server 2012概论 与往常不同的是,今年在服务器领域发生了翻天覆地的变化。从底层的新品架构推动服务器基础设施扑面而来的升级换代,到构建云基础架构平台上分布式处理系统应对大数据...

  • 微软HPC解决方案概述与实作

    例如,一个分布式群集的节点,可以是server,pc,hpc,可以是跨机房,跨地区,跨国,可以是windows,linux,unix,可以分布式计算里面再包括多个群集,多个节点,基本上分布式群集最大的一个特点,就是对提供计算的...

  • 微软HPC解决方案

    首先我们先来看下高性能群集与其它几种群集的不同   高可用群集:群集所有节点,来维持一个应用的持续运作,如果当前应用所在节点失败,自动故障转移至其它节点 负载均衡群集:群集所有节点来平衡一个应用的访问...

  • BizTalk学习笔记系列之二:实例说明如何使用BizTalk

    存储和交付体系结构组合在一起,使基于编排的应用场合的吞吐率有了极大的提高。 该编排引擎通过自动事务缓冲池进一步优化了性能。此外,该引擎的向外扩充模型允许编排处理以负载平衡的方式分散在一个 BizTalk 群集...

  • Biztalk 知识整理

    我们就用这个来实现发送端口与接收端口的关联。在条件表达式中设置: BTS.ReceivePortName == ReceiveFiles  10. 启动BizTalk 应用程序验证程序  右击Hello World应用程序选择Start。打开刚才配置的接收文件夹...

  • 级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均衡管理,级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均

    级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均衡管理,级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均衡管理,不平衡电网下的svg无功补偿,级联H桥svg无功补偿statcom,采用三层控制策略。 (1)第一层采用电压电流双闭环pi控制,电压电流正负序分离,电压外环通过产生基波正序有功电流三相所有H桥模块直流侧平均电压恒定,电流内环采用前馈解耦控制; (2)第二层相间电压均衡控制,注入零序电压,控制通过注入零序电压维持相间电压平衡; (3)第三层相内电压均衡控制,使其所有子模块吸收的有功功率与其损耗补,从而保证所有H桥子模块直流侧电压值等于给定值。 有参考资料。 639,核心关键词: 1. 不平衡电网下的SVG无功补偿 2. 级联H桥SVG无功补偿STATCOM 3. 三层控制策略 4. 电压电流双闭环PI控制 5. 电压电流正负序分离 6. 直流侧平均电压恒定 7. 前馈解耦控制 8. 相间电压均衡控制 9. 零序电压注入 10. 相内电压均衡控制 以上十个关键词用分号分隔的格式为:不

  • GTX 1080 PCB图纸

    GTX 1080 PCB图纸,内含图纸查看软件

  • 深度优化与应用:提升DeepSeek润色指令的有效性和灵活性指南

    内容概要:本文档详细介绍了利用 DeepSeek 进行文本润色和问答交互时提高效果的方法和技巧,涵盖了从明确需求、提供适当上下文到尝试开放式问题以及多轮对话的十个要点。每一部分内容都提供了具体的示范案例,如指定回答格式、分步骤提问等具体实例,旨在指导用户更好地理解和运用 DeepSeek 提升工作效率和交流质量。同时文中还强调了根据不同应用场景调整提示词语气和风格的重要性和方法。 适用人群:适用于希望通过优化提问技巧以获得高质量反馈的企业员工、科研人员以及一般公众。 使用场景及目标:本文针对所有期望提高 DeepSeek 使用效率的人群,帮助他们在日常工作中快速获取精准的答案或信息,特别是在撰写报告、研究材料准备和技术咨询等方面。此外还鼓励用户通过不断尝试不同形式的问题表述来进行有效沟通。 其他说明:该文档不仅关注实际操作指引,同样重视用户思维模式转变——由简单索取答案向引导 AI 辅助创造性解决问题的方向发展。

  • 基于FPGA与W5500实现的TCP网络通信测试平台开发-Zynq扩展口Verilog编程实践,基于FPGA与W5500芯片的TCP网络通信测试及多路Socket实现基于zynq开发平台和Vivad

    基于FPGA与W5500实现的TCP网络通信测试平台开发——Zynq扩展口Verilog编程实践,基于FPGA与W5500芯片的TCP网络通信测试及多路Socket实现基于zynq开发平台和Vivado 2019软件的扩展开发,基于FPGA和W5500的TCP网络通信 测试平台 zynq扩展口开发 软件平台 vivado2019.2,纯Verilog可移植 测试环境 压力测试 cmd命令下ping电脑ip,同时采用上位机进行10ms发包回环测试,不丢包(内部数据回环,需要时间处理) 目前实现单socket功能,多路可支持 ,基于FPGA; W5500; TCP网络通信; Zynq扩展口开发; 纯Verilog可移植; 测试平台; 压力测试; 10ms发包回环测试; 单socket功能; 多路支持。,基于FPGA与W5500的Zynq扩展口TCP通信测试:可移植Verilog实现的高效网络通信

  • Labview液压比例阀伺服阀试验台多功能程序:PLC通讯、液压动画模拟、手动控制与调试、传感器标定、报警及记录、自动实验、数据处理与查询存储,报表生成与打印一体化解决方案 ,Labview液压比例阀

    Labview液压比例阀伺服阀试验台多功能程序:PLC通讯、液压动画模拟、手动控制与调试、传感器标定、报警及记录、自动实验、数据处理与查询存储,报表生成与打印一体化解决方案。,Labview液压比例阀伺服阀试验台多功能程序:PLC通讯、液压动画模拟、手动控制与调试、传感器标定、报警管理及实验自动化,labview液压比例阀伺服阀试验台程序:功能包括,同PLC通讯程序,液压动画,手动控制及调试,传感器标定,报警设置及报警记录,自动实验,数据处理曲线处理,数据库存储及查询,报表自动生成及打印,扫码枪扫码及信号录入等~ ,核心关键词:PLC通讯; 液压动画; 手动控制及调试; 传感器标定; 报警设置及记录; 自动实验; 数据处理及曲线处理; 数据库存储及查询; 报表生成及打印; 扫码枪扫码。,Labview驱动的智能液压阀测试系统:多功能控制与数据处理

  • 华为、腾讯、万科员工职业发展体系建设与实践.pptx

    华为、腾讯、万科员工职业发展体系建设与实践.pptx

  • 基于遗传算法的柔性车间调度优化 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

  • 电网不对称故障下VSG峰值电流限制的柔性控制策略:实现电流平衡与功率容量的优化利用,电网不对称故障下VSG峰值电流限制的柔性控制策略:兼顾平衡电流与功率控制切换的动态管理,电网不对称故障下VSG峰值电

    电网不对称故障下VSG峰值电流限制的柔性控制策略:实现电流平衡与功率容量的优化利用,电网不对称故障下VSG峰值电流限制的柔性控制策略:兼顾平衡电流与功率控制切换的动态管理,电网不对称故障下VSG峰值电流限制的柔性不平衡控制(文章完全复现)。 提出一种在不平衡运行条件下具有峰值电流限制的可变不平衡电流控制方法,可灵活地满足不同操作需求,包括电流平衡、有功或无功恒定运行(即电流控制、有功控制或无功控制之间的相互切),注入电流保持在安全值内,以更好的利用VSG功率容量。 关键词:VSG、平衡电流控制、有功功率控制、无功功率控制。 ,VSG; 峰值电流限制; 柔性不平衡控制; 电流平衡控制; 有功功率控制; 无功功率控制。,VSG柔性控制:在电网不对称故障下的峰值电流限制与平衡管理

  • libpinyin-tools-0.9.93-4.el7.x64-86.rpm.tar.gz

    1、文件内容:libpinyin-tools-0.9.93-4.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/libpinyin-tools-0.9.93-4.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持:公众号禅静编程坊

  • 机器学习(预测模型):动漫《龙珠》相关的数据集

    数据集是一个以经典动漫《龙珠》为主题的多维度数据集,广泛应用于数据分析、机器学习和图像识别等领域。该数据集由多个来源整合而成,涵盖了角色信息、战斗力、剧情片段、台词以及角色图像等多个方面。数据集的核心内容包括: 角色信息:包含《龙珠》系列中的主要角色及其属性,如名称、种族、所属系列(如《龙珠》《龙珠Z》《龙珠超》等)、战斗力等级等。 图像数据:提供角色的图像资源,可用于图像分类和角色识别任务。这些图像来自动画剧集、漫画和相关衍生作品。 剧情与台词:部分数据集还包含角色在不同故事中的台词和剧情片段,可用于文本分析和自然语言处理任务。 战斗数据:记录角色在不同剧情中的战斗力变化和战斗历史,为研究角色成长和剧情发展提供支持。 数据集特点 多样性:数据集整合了角色、图像、文本等多种类型的数据,适用于多种研究场景。 深度:不仅包含角色的基本信息,还涵盖了角色的成长历程、技能描述和与其他角色的互动关系。 实用性:支持多种编程语言(如Python、R)的数据处理和分析,提供了详细的文档和示例代码。

  • 基于protues仿真的多功公交站播报系统设计(仿真图、源代码)

    基于protues仿真的多功公交站播报系统设计(仿真图、源代码) 该设计为基于protues仿真的多功公交站播报系统,实现温度显示、时间显示、和系统公交站播报功能; 具体功能如下: 1、系统使用51单片机为核心设计; 2、时钟芯片进行时间和日期显示; 3、温度传感器进行温度读取; 4、LCD12864液晶屏进行相关显示; 5、按键设置调节时间; 6、按键设置报站; 7、仿真图、源代码; 操作说明: 1、下行控制报站:首先按下(下行设置按键),(下行指示灯)亮,然后按下(手动播报)按键控制播报下一站; 2、上行控制报站:首先按上(上行设置按键),(上行指示灯)亮,然后按下(手动播报)按键控制播报下一站; 3、按下关闭播报按键,则关闭播报功能和清除显示

  • 基于微信小程序的琴房管理系统的设计与实现.zip

    采用Java后台技术和MySQL数据库,在前台界面为提升用户体验,使用Jquery、Ajax、CSS等技术进行布局。 系统包括两类用户:学生、管理员。 学生用户 学生用户只要实现了前台信息的查看,打开首页,查看网站介绍、琴房信息、在线留言、轮播图信息公告等,通过点击首页的菜单跳转到对应的功能页面菜单,包括网站首页、琴房信息、注册登录、个人中心、后台登录。 学生用户通过账户账号登录,登录后具有所有的操作权限,如果没有登录,不能在线预约。学生用户退出系统将注销个人的登录信息。 管理员通过后台的登录页面,选择管理员权限后进行登录,管理员的权限包括轮播公告管理、老师学生信息管理和信息审核管理,管理员管理后点击退出,注销登录信息。 管理员用户具有在线交流的管理,琴房信息管理、琴房预约管理。 在线交流是对前台用户留言内容进行管理,删除留言信息,查看留言信息。

  • 界面GUI设计MATLAB教室人数统计.zip

    MATLAB可以用于开发人脸识别考勤系统。下面是一个简单的示例流程: 1. 数据采集:首先收集员工的人脸图像作为训练数据集。可以要求员工提供多张照片以获得更好的训练效果。 2. 图像预处理:使用MATLAB的图像处理工具对采集到的人脸图像进行预处理,例如灰度化、裁剪、缩放等操作。 3. 特征提取:利用MATLAB的人脸识别工具包,如Face Recognition Toolbox,对处理后的图像提取人脸特征,常用的方法包括主成分分析(PCA)和线性判别分析(LDA)等。 4. 训练模型:使用已提取的人脸特征数据集训练人脸识别模型,可以选择支持向量机(SVM)、卷积神经网络(CNN)等算法。 5. 考勤系统:在员工打卡时,将摄像头捕获的人脸图像输入到训练好的模型中进行识别,匹配员工信息并记录考勤数据。 6. 结果反馈:根据识别结果,可以自动生成考勤报表或者实时显示员工打卡情况。 以上只是一个简单的步骤,实际开发过程中需根据具体需求和系统规模进行定制和优化。MATLAB提供了丰富的图像处理和机器学习工具,是开发人脸识别考勤系统的一个很好选择。

Global site tag (gtag.js) - Google Analytics