彭洋出诊的医院 http://m.39.net/news/a_9249059.html

从退出移动市场到引领人工智能浪潮,NVIDIA过去一年股价狂飙三倍,甚至让某些华尔街分析师一度暂时停止估价。黄仁勋这三个字变成“AI教父”、“让科技以3倍速前进的男人”.....等。从全世界开始对人工智能、自动驾驶趋之若鹜之后,关于NVIDIA的一切已经无需太多说明。

北京时间9月26日,也就是今天上午,NVIDIA创始人兼CEO黄仁勋在北京GTC(GPU技术大会)上发表主题演讲《AI的趋势、挑战与机遇》(AITrends,ChallengesandOpportunities),DT君从现场发回报道。

图丨英伟达GTC大会入场

图丨一语道破英伟达的愿景

图丨现场的JetsonTX2超级计算平台

图丨黄仁勋表示,AI已无处不在,两股力量正推动计算领域的未来。第一,摩尔定律已终结,设计人员无法再创造出可以实现更高指令级并行性的CPU架构;第二,深度学习正在引领软件和计算领域的变革。深度学习、大数据和GPU计算的结合则引爆了AI革命。与此同时,NVIDIA的GPU也弥补了CPU的不足,加速处理高强度计算负载,为整个行业指明了前进的道路。

图丨AI推理平台必须具备可编程性才能运行种类繁多且不断演进的网络架构

图丨黄仁勋介绍智能设备的爆炸性增长

黄仁勋表示,在不远的未来,数据中心内的每个查询和工作负载都将涉及一个或多个DNN推理。推理吞吐量直接转化为数据中心成本。V可将CPU速度提高40倍,所以只需一台8-GPU服务器即可替换台双CPU服务器或4个机架。每台V服务器可节省约50万美元!

图丨自动驾驶汽车的发明将是AI最大的贡献之一。NVIDIADRIVE是一个为自动驾驶行业带来变革的端到端平台。与此同时,作为NVIDIA开发的自动驾驶应用,DRIVEAV将环绕摄像头、雷达和激光雷达的传感数据融合。多种深度学习和计算机视觉算法将为L4和L5级别自动驾驶技术提供所需的多样性和冗余性。合作伙伴能利用我们平台的所有或部分特性。

图丨NVIDIADRIVE是最前沿的深度学习和计算机视觉计算机,可以让新型的初创公司设计新的算法和软件。家初创公司正在研制基于NVIDIADRIVE的自动驾驶汽车,卡车,高清制图及服务。

鉴于中国市场的重要性和AI创业的持续火热,黄仁勋这次现身北京,也是继今年1月拉斯维加斯CES公布一系列全新产品,以及5月圣何塞GTC发布基于全新Volta架构的TeslaV加速卡后,最重磅的一次公开露面。主题演讲的内容,也是全球AI从业者所关心的TeslaV最新的进展,以及相关软硬件的部署情况。

今年5月黄仁勋在圣何塞GTC上正式发布TeslaV加速卡的情景,相信很多人还记忆犹新:黄仁勋掏出一张手掌般大小的卡片,一改往日的沉稳做派,情绪激动的向全世界展示这一革命性的“性能怪兽”:TeslaV加速卡。黄仁勋的激动可以理解,毕竟他手握的是NVIDIA投入了数千人、花费了数年时间、耗资30亿美元打造的产品,他甚至称“打造TeslaV是不可能完成的任务,难以置信!”

图丨黄仁勋在今年5月的圣何塞GTC上重磅发布TeslaV

言归正传,黄仁勋在本次北京GTC上的主题演讲也是以TeslaV加速卡和TensorRT3可编程推理引擎这两大软硬件平台为核心所展开的。本次的主题演讲主要分成四部分:

TensorRT3推理引擎(TensorRT3InferenceEngine)

作为本次GTC最重要的发布之一,TensorRT3是NVIDIA最新版本的可编程推理平台,能协助用户快速完成AI推理引擎的布署。

图丨黄仁勋宣布NVIDIA兼容所有的AI开发框架

图丨黄仁勋宣布推出NVIDIATensorRT3。TensorRT是全球首款可编程AI推理加速器,TensorRT可编程,且支持所有框架,并能加速现有和未来的网络架构。NVIDIATensorRT3的性能非常卓越,例如,运行在Volta上的TensorRT3在图像分类方面比最快的CPU还要快40倍,在语言翻译方面则要快倍等等。

简单来说,一边是个大公司开发出来的机器学习框架,诸如Google的TensorFlow、Facebook的Caffe2、微软的CognitiveToolkit等,另一边则是用来加速学习的硬件,当然是NVIDIA的自家产品,比如TeslaV、DRIVEPX2、JETSONTX2等。那么如何简单快速又高效的在深度学习框架和硬件之间建立起联系?让算法能够真正很方便的跑起来?TensorRT3就充当了中间这个桥梁,让深度学习的门槛大大降低。

图丨NVIDIATensorRT可编程推理平台(来源:NVIDIA)

TensorRT是基于神经网络上的推理加速库,通过为开发者提供现成的程序库来有效缩短开发时间。TensorRT是采用GCC开发而成的X++库,其1.0版支持FP16计算特性,2.X版则是增加了INT8的支持,并且支持开放式开发环境Caffe大部分常用的层以及模型。

众所周知,深度学习分为训练(training)与推理(inference)两个阶段。与训练时不同,推理工作所使用的精度不需要到很高,一般而言四分之一精度计算就已经足够了。目前TPU、FPGA、GPU或者是NVIDIA新推出的TensorCore,在处理推理工作时,都是采用INT8计算。

而根据NVIDIA官方开发网站的介绍,最新版本的TensorRT3除了具备INT8特性外,同时进一步强化INT8加速技术,并增加了动态内存管理以及内核自动优化机制,可有效减少计算压力、简化推理模型,节省终端所需要的推理计算资源。

图丨TensorRT3的技术特点(来源:NVIDIA)

通过TensorRT,开发者可以大幅减少推理过程的延迟现象,几乎可达到实时反应的地步,这对于像在线影音分类、对象侦测以及自动驾驶的应用而言,无疑是非常重要的特性。

当然,TensorRT若是从头到尾重新开发属于自己的库,NVIDIA同样也会完全支持,并提供相对应的函数,让开发者同样能够享有INT8加速效果,并且可以支持更多定制化的AI技术。

目前,已经有很多企业导入了INT8加速技术,来加快推理过程,从而减轻终端负担,比如滴滴、大疆、Face++、微软亚洲研究院等,未来普及率也会逐渐增加。TensorRT包含在NVIDIA提供给开发者的工具与函数库JetPack中,只要使用NVIDIA的方案就可获得。

图丨TensorRT可协助用户快速部署训练完的模型,并根据用户需求套用推理库来进行优化(来源:NVIDIA)

TeslaV全面融入中国的AI云服务

介绍完全新的开发平台后,该讲讲自家产品在行业中的应用了。首先,黄仁勋举了一个很简单的例子来说明目前CPU并不是AI相关计算的最佳选择。以中国语音识别领域的著名厂商科大讯飞为例,以其语音产品每天5亿人次的访问量、每次平均15分钟的使用时长来计算,要满足这个计算量将要花费10亿美元来搭建基于CPU的数据中心,这包括20万个CPU服务器,以及兆瓦的耗电量。

图丨黄仁勋在GTC大会上也宣布了重大合作消息,目前,阿里巴巴、百度和腾讯已在各自的云服务中采用NVIDIAVoltaGPU——研究人员和初创公司现在可以租用云端最先进的AI基础设施,免于建造超级计算机的复杂性和高昂费用。华为、浪潮和联想也已采用NVIDIA基于HGX的GPU服务器——对于需要专用AI超级计算机的企业,NVIDIA正在与中国主要的系统集成商开展合作,提供经过全面优化的服务器。

图丨黄仁勋宣布中国云服务提供商采用NVIDIAGPU加速的推理平台。中国拥有世界上最庞大和最活跃的互联网用户群,并且中国的互联网公司是AI领域的全球领导者。他们正在竞相把AI融合到商业、社交、新闻、语音、实时视频和图像共享中。中国的顶级互联网公司都采用了NVIDIA的可编程推理加速平台来支持呈指数级增长的AI工作负载。

而NVIDIA的HGX服务器则是在8个TeslaV加速单元的基础上搭建的AI专用加速器,单个HGX服务器在语音/图像识别推理方面的计算性能相当于个传统CPU服务器。

图丨在语音/图像识别推理计算能力方面,单个HGX服务器相当于个传统CPU服务器(来源:NVIDIA)

目前,NVIDIA已经与中国的主流科技公司展开了技术合作,从现场公布的数据来看:将科大讯飞单个服务器能同时处理的访问量提高了10倍;将



转载请注明地址:http://www.shenghesaia.com/shsjd/11745.html