CUDA与TensorRT部署实战课程（2023新课+源码+课件）

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 1124 次

锁定老帖子主题：CUDA与TensorRT部署实战课程（2023新课+源码+课件）精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
richondow 等级: 性别: 文章: 76 积分: 730 来自: 上海	发表时间：2023-11-17 相关推荐: 深度学习-TensorRT模型部署实战2022 一个男性自杀者的遗书自杀者遗书深度学习-TensorRT模型部署实战视频课程 YOLOv5实战+TensorRT部署+VS2019编译[全部软件下载] 更多相关推荐 CUDA TensorRT CUDA与TensorRT部署实战课程（2023新课+源码+课件）网盘地址：https://pan.baidu.com/s/1nc6QidCIlkVM_k3JOzwx7A 提取码: 2u4m 腾讯微云下载地址：https://share.weiyun.com/4lKJbfL0 密码：7qaj55 分享一套课程——CUDA与TensorRT部署实战课程（2023新课+源码+课件）。 CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA™架构编写程序，所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动（表2）。开发库是基于CUDA技术所提供的应用开发库。CUDA的1.1版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。由于存在着多种GPU版本的NVidia显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持，NVIDIA公司GPU运算事业部总经理Andy Keane在一次活动中表示：一个充满生命力的技术平台应该是开放的，CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在，因此今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品。 Tensor是一个有助于在NVIDIA图形处理单元（GPU）上高性能推理c++库。它旨在与TesnsorFlow、Caffe、Pytorch以及MXNet等训练框架以互补的方式进行工作，专门致力于在GPU上快速有效地进行网络推理。 TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境，可为深度学习推理应用提供低延迟和高吞吐量。在推理过程中，基于TensorRT的应用程序比仅仅使用CPU作为平台的应用程序要快40倍。 TensorRT包含两个阶段：编译build和部署deploy。编译阶段对网络配置进行优化，并生成一个plan文件，用于通过深度神经网络计算前向传递。plan文件是一个优化的目标代码，可以序列化并且可存储在内存和硬盘中。部署阶段通常采用长时间运行的服务或者用户应用程序的形式。它们接收批量输入数据，通过执行plan文件在输入数据上进行推理，并且返回批量的输出数据（分类、目标检测等）为了优化模型的inference，TensorRT会根据网络的定义执行优化【包括特定平台的优化】并生成inference engine。此过程被称为构建阶段，尤其是在嵌入式平台上会消耗大量的时间，因此，一个典型的应用程序只会被构建一次engine，然后将其序列化为plane file以供后续使用。【注意：生成的plane file 不能跨平台或TensorRT 版本移植。另外，因为plane file是明确指定GPU 的model，所以我们要想使用不同的GPU来运行plane file必须得重新指定GPU】声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: