NVIDIA扩展其面向超大规模数据中心的深度学习推理能力
【CPS中安网 cps.com.cn】
NVIDIA扩展其面向超大规模数据中心的深度学习推理能力 ,发布 NVIDIA TensorRT 4、与 TensorFlow的集成、 对 Kaldi的语音加速以及扩展对ONNX 的支持; GPU 推理速度现在比CPU 快可高达190 倍。
太平洋时间2018年3月27日—NVIDIA宣布了一系列新技术与合作,将其潜在的推理市场扩展至全球 3000 万台超大规模服务器,同时为交付基于深度学习的服务大幅降低成本。
在 GTC 2018 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋表示,基于在数据中心、汽车应用、以及包括机器人和无人机等嵌入式设备领域中,诸如语音识别、自然语言处理、推荐系统、以及图像识别等新功能的支持,面向深度学习推理的 GPU加速正在获得越来越多的关注。
NVIDIA宣布推出新版TensorRT推理软件,并将TensorRT集成至谷歌的TensorFlow框架。NVIDIA还宣布,最受欢迎的语音识别框架 Kaldi现已针对GPU 进行了优化。NVIDIA与亚马逊、Facebook及微软等合作伙伴的紧密协作,让开发者更易于使用 ONNX 与 WinML 充分发挥 GPU 加速的优势。
NVIDIA 加速计算副总裁兼总经理 Ian Buck 表示:“即便是最大规模的神经网络,面向量产型深度学习推理的GPU加速也能够让其以最低成本实时运行。随着对更多智能应用及框架支持的快速扩展,我们现在能够提高深度学习的质量,并帮助降低 3000 万台超大规模服务器的成本。”
TensorRT和 TensorFlow集成
NVIDIA发布了TensorRT 4 软件,以针对广泛的应用加速深度学习推理。TensorRT提供高度精确的INT8 与 FP16 网络执行,最高可减少70% 的数据中心成本。
TensorRT 4 可用于快速优化、验证及部署在超大规模数据中心、嵌入式与汽车 GPU平台中经过训练的神经网络。相比 CPU,针对计算机视觉、神经网络机器翻译、自动语音识别、语音合成与推荐系统等常见应用,该软件最高可将深度学习推理的速度加快190 倍。
为了进一步精简开发, NVIDIA与谷歌的工程师已将TensorRT 集成至TensorFlow 1.7,使得在GPU上运行深度学习推理应用更加容易。
谷歌工程总监 Rajat Monga 表示:“TensorFlow 团队正在与 NVIDIA 密切协作,致力于将 NVIDIA GPU 的最佳性能推向深度学习社群。现在,通过 TensorFlow 与 NVIDIA TensorRT 的集成,可利用Volta Tensor Core 技术将NVIDIA深度学习平台的推理吞吐量提高 8 倍(相比低延迟目标下的普通GPU执行),从而让 GPU 在TensorFlow内的推理实现了最高性能。”
NVIDIA 优化了全球领先的语音框架 Kaldi,以实现运行于 GPU 的更快性能。GPU 语音加速意味着消费者将获得更加准确与实用的虚拟助手,并降低数据中心运营商的部署成本。
广泛的业界支持
全球各地众多公司的开发者正在使用 TensorRT 从数据中获取新洞察,并部署面向企业与消费者的智能服务。
NVIDIA与亚马逊、 Facebook 及微软密切合作,确保使用 Caffe 2、 Chainer、 CNTK、 MXNet与Pytorch等ONNX 框架的开发者现在可以在 NVIDIA深度学习平台轻松部署。
SAP 机器学习负责人Markus Noga 表示:“通过在NVIDIA Tesla V100 GPU 上运行我们基于深度学习的推荐应用,我们对 TensorRT进行了评估。相比基于 CPU的平台,我们在推理速度与吞吐量方面获得了45 倍的提升。我们相信,TensorRT 能够大幅提高我们企业客户的生产力。”
Twitter Cortex 负责人 Nicolas Koumchatzky 表示:“通过使用 GPU,在我们的平台上得以实现媒体识读,这不仅显著减少了媒体深度学习模型训练时间,而且还能够让我们在推理时间获得对于即时影像的实时解读。”
近期,微软也宣布了针对 Windows 10 应用的人工智能支持。NVIDIA与微软合作创建了 GPU加速的工具,帮助开发者向 Windows应用引入更多智能特性。
NVIDIA 还宣布了面向 Kubernetes 的 GPU 加速,以促进企业在多云 GPU 集群上的推理部署。NVIDIA将针对开源社群强化 GPU性能,以支持 Kubernetes 生态系统。
此外,MATLAB 软件开发商 MathWorks 今天宣布了 TensorRT 与 MATLAB 的集成。工程师与科学家现在可以利用 MATLAB 自动生成面向 NVIDIA DRIVE™、Jetson™与 Tesla®平台的高性能推理引擎。
面向数据中心的推理
数据中心的运营者需要不断地寻求性能与效率的平衡,以使其服务器群保持最大的生产力。针对深度学习推理应用与服务, NVIDIA Tesla GPU 加速的服务器能够替代数个机架的 CPU服务器,从而释放宝贵的机架空间,并减低能源与降温需求。
面向自动驾驶汽车、嵌入式平台的推理
TensorRT 也可以部署在 NVIDIA DRIVE 自动驾驶车辆与 NVIDIA Jetson 嵌入式平台上。基于各个框架的深度神经网络均可在数据中心内的 NVIDIA DGX™系统中加以训练,然后部署至包括从机器人到自动驾驶车辆的所有类型的设备,并在终端实现实时推理。
利用 TensorRT,开发者可以集中于开发基于深度学习的新型应用,而非针对推理部署进行性能调节。利用可显著降低延迟的 INT8或FP16精度,开发者可使用TensorRT交付闪电般快速的推理,这对于嵌入式与汽车平台上的目标检测与路径规划等功能而言至关重要。
您可能感兴趣的文章
征稿:
为了更好的发挥CPS中安网资讯平台价值,促进诸位自身发展以及业务拓展,更好地为企业及个人提供服务,中安网诚征各类稿件,欢迎有实力安防企业、机构、研究员、行业分析师。投稿邮箱: tougao@cps.com.cn(查看征稿详细)