课程导语

今年5月,在加州圣何塞举办的GPU技术大会(GTC)上,英伟达CEO黄仁勋发布了使用最新一代架构Volta的NVIDIATeslaV,被业界称为“宇宙最快”GPU加速器。

12月21日晚8点,智东西策划的英伟达公开课第二期开课,主讲导师NVIDIA中国高级解决方案架构师吴磊就主题《如何为深度学习和HPC提供更高算力—TelsaV深度讲解》,对Volta架构的最新特性、GV的V架构、专为深度学习设计的TensorCore以及Volta如何加入深度学习英语进行了深度讲解。同时,NVIDIA中国首席解决方案架构师罗华平与吴磊一起参与了本期公开课的QA环节的交流。

课程提纲

-Volta架构最新特性

-Volta架构深度解析

-Volta加速HPC应用

-Volta加速DeepLearning应用

-Volta家族产品

重点内容

1、不同于基于上一代Pascal架构的产品多样化(有P,P40和P4),这一代基于Volta架构的Tesla产品只推出了TeslaV这一款——我们称为universial(通用)的GPU,可以同时实现HPC、AI训练(Training)和推理(Inference)的加速、以及虚拟化功能。相比上一代,Volta产品在各个应用领域的加速性能都有所提升,尤其是在AITraining和AIInference上的应用,得益于新增加的张量计算单元,平均的加速比可以达到3倍。

2、TensorCore是Volta架构最重磅特性,是专门针对DeepLearning应用而设计的专用ASIC单元,实际上是一种矩阵乘累加的计算单元。(矩阵乘累加计算在DeepLearning网络层算法中,比如卷积层、全连接层等是最重要、最耗时的一部分。)TensorCore可以在一个时钟周期内实现两个4×4矩阵乘法以及与另一个4×4矩阵加法。整个计算的个数,就是在一个时钟周期内可以实现64次乘和64次加。

3、利用TensorCore实现矩阵乘法的加速的两种方式:1、在CUDA编程里实现TensorCore的调用。新的CUDA9.0里增加了WMMA,可以调用其中的API实现输入矩阵的Load,两个矩阵做乘加,还有结构矩阵的Store;2、可以利用现成库函数,最新版本的cuDNN7.0、CUDA9.0中的cuBLAs,TensorRT3.0都支持TensorCore的调用。这个方式相对比较简单。

4、目前TensorCore可以支持的深度学习框架有Caffe、Caffe2、MXNet、PyTorch、Theano、TensorFlow等,但不支持CNTK、Chainer、Torch;

5、在底层实现上,NVIDIA提供了大量SDK去支持上层应用或者框架,来最简化、最高效地帮助用户实现GPU加速DeepLearning的训练或推理的过程。这些SDK包括在Training(训练)端的SDK,如标准线性代数库cuBLAS、深度学习算法库cuDNN(最新版本7.0)、多GPU的集合通信库NCCL(最新版本2.0)、基于WEBUI交互式的深度学习训练系统DIGITS(最新版本6.0),以及Inference(推理)端SDK,如推理加速引擎TensorRT(最新版本3.0)、智能视频分析工具DeepStream。

6、全球3组现在或者今后会大规模部署TeslaVGPU的数据中心:1、美国橡树岭国家实验室的Summit超级计算机,将在明年完成超过台TeslaVGPU服务器的搭建;2、日本国家先进工业科学和技术研究所(AIST)将在其数据中心部署颗TeslaVGPU;3、NVIDIA超级计算器SARURNV。SARURNV将在原有的基础上进行升级改造。去年,SARURNV由台DGX-1服务器搭建而成,每台DGX-1的服务器搭载了8颗TeslaPGPU,这台超级计算机曾经在世界Top绿能计算机中排名第一。在升级之后,SARURNV将会由台DGX-1V服务器组成,每台DGX-1V服务器会由8颗TeslaVGPU组成。

7、TeslaV有NVLink和PCIe两个版本,但计算核心都是GV,都有个CUDACores以及个TensorCores,不同点在于主频和功耗。NVLink版本主频更高,双精度浮点计算能力可以达到7.8个TFLOPS,单精度浮点计算能力可以达到15.7个TFLOPS,而混合精度计算能力可以达到个TFLOPS。PCIe版本对应指标分别是7个TFLOPS、14个TFLOPS和个TFLOPS。两个版本在计算性能上并无差异,主要取决于用户实际需求。如果需要在GPU之间频繁进行数据交换,那么PCIe的传输带宽可能会成为瓶颈;如果使用NVLink版本就能达到比较好的效果,否则PCIe版本的TeslaV是更通用的选择;

8、全世界越来越多的超算中心开始使用GPU计算集群代替原有的CPU计算集群,主要是因为GPU的核心价值是可以为客户大幅度的节省资金。相比CPU计算集群,GPU计算集群会把绝大部分的成本花费在购买计算力上,而CPU的集群有很多的成本花费在建设基础设施、网络、机柜等花销上。

福利入口

A、如果你需要本期英伟达公开课的标准课件和完整音频,智东西(zhidx







































白癜风用什么药膏好使
初期白癜风能治好么



转载请注明地址:http://www.shengshihuaz.com/shsjt/1791.html