【20 亿美元赌注】英伟达推出深度学习芯片,人工智能进入主流时代

简介:
硬件能力
 

基于GPU并行处理的优势,Tesla P100能够实现数百CPU服务器节点性能。DGX-1采用NVIDIA新Pascal架构的Tesla P100显卡系列,数据处理速度是NVIDIA 此前Maxwell架构——才刚于2014年推出 ——显卡系列的12倍。据NVIDIA官网消息,DGX-1共装入8组各内建16BG存储器的Tesla P100显卡,配置英特尔 E5-2698 v3 处理器,7 TB的SSD硬盘用作深度学习高速缓存,系统存储器部分最大可支持512GB DDR4的内存容量,半精度条件每秒浮点运算峰值性能170万亿次,运算能力相当于250台X86服务器搭建的机群。不过,这台超级计算机的功耗高达3200W,让新智元记者认为其能效比或许是个问题。


在NVIDIA官方新闻中,Facebook人工智能实验室负责人Yann LeCun在评论Pascal架构时表示:“NVIDIA GPU正在加速人工智能的发展进程。随着神经网络越变越大,我们不仅需要内存更大、速度更快的GPU,也需要大幅提升GPU间的通信速度以及能够利用降低精度进行运算的硬件。这些正是Pascal所具备的特点。”


软件优化
 

软件方面,DGX-1装载了一套针对深度学习进行优化的软件功能,包括用于设计深度神经网络的NVIDIA深度学习GPU训练系统(Deep Learning GPU Training System,DIGITS),以及最新发布的第5版CUDA深度神经网络库(CUDA Deep Neural Network library,cuDNN)。此外,DGX-1内提供一些优化版的广泛应用深度学习框架,如Caffe、Theano、Torch。系统还搭配一套云端存取管理工具、软件更新,以及一个容器化应用库。


测试结果


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

以往25个小时才能消化的运算任务现在只需要2小时。来源:cnbeta.com
640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy官方宣称DGX-1相当于250个X86服务器搭建的机群。来源:cnbeta.com
NVIDIA 在硬件和软件领域都对深度学习进行了特别的优化。作为芯片产业的巨头,在年度最重要的GPU技术大会上,黄仁勋演讲超过一半的篇幅都和深度学习相关。 本届GTC技术大会专门发布了深度学习芯片Tesla P100和超级计算机DGX-1,还推出了一系列围绕人工智能和深度学习的相关设备和GPU新品。  芯片是整个智能产业的发动机,也是市场成熟度的关键指标,而且计算能力的飞速发展,意味着芯片制造商必须要在几年之内获得相应的市场回报。NVIDIA 敢于Tesla P100上投下这笔高达20多亿美元的赌注,可以预计深度学习和人工智能正逐步走向主流市场。

NVIDIA的野心


黄仁勋在会上表示,如今的数据科学家和AI研究者在“home-brewed”的高性能计算解决方案上耗费了大量时间,NVIDIA研发和部署DGX-1只有一个目的:解放超越人类的能力,并将其用于解决一度无法解决的问题。 近年来,随着深度学习应用大量涌现,超级计算机的架构逐渐向深度学习应用优化,从传统CPU为主GPU为辅的英特尔处理器变为GPU为主CPU为辅的结构。在这样的背景下,作为GPU的发明人和芯片领域的领头羊之一,NVIDIA实际上早在5年前便涉足人工智能和深度学习相关应用,积极拓展市场。其中,值得注意的是自动驾驶汽车领域。谷歌的自动驾驶汽车一直使用NVIDIA的Tegra处理器;2015年3月,NVIDIA推出了Drive PX 2无人驾驶平台,据称每秒能够执行24万亿次深度学习任务。不仅如此,包括宝马、福特在内的全球50多家汽车制造商和供应商都在使用或测试NVIDIA的Drive PX平台。美国汽车专业调查公司IHS Automotive称NVIDIA的产品“将成为未来汽车的大脑”。

 

据参会台湾记者余志浩在iT Home网站报道:黄仁勋在会上频频提到深度学习技术及其将给各个产业带来的颠覆性变革;黄仁勋表示,深度学习技术不止是一种算法或App,更将成为一种全新的计算模式(Computing Model),从而令深度学习成为未来所有企业乃至个人都不能忽视的大事。 

黄仁勋透露,NVIDIA与加州大学、斯坦福大学、麻省理工大学等领先科研团队达成合作,将DGX-1提供给后者用于进行深度学习训练。目前P100芯片已经投入量产,预计今年就会在云计算公司启用。此外,IBM、Dell、HP等主流服务器厂商也在生产搭载Tesla P100显卡的服务器,预计2017年第一季度上市。

文章转载自新智元公众号 原文链接

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能与图像识别:基于深度学习的卷积神经网络
人工智能与图像识别:基于深度学习的卷积神经网络
34 0
|
3天前
|
机器学习/深度学习 算法 PyTorch
fast.ai 深度学习笔记(三)(3)
fast.ai 深度学习笔记(三)(3)
|
3天前
|
机器学习/深度学习 PyTorch 算法框架/工具
fast.ai 深度学习笔记(三)(1)
fast.ai 深度学习笔记(三)(1)
|
3天前
|
机器学习/深度学习 固态存储 Python
|
3天前
|
机器学习/深度学习 算法框架/工具 PyTorch
|
机器学习/深度学习 自然语言处理 Web App开发
|
3天前
|
机器学习/深度学习 API 调度
|
机器学习/深度学习 计算机视觉 存储
|
3天前
|
机器学习/深度学习 自然语言处理 搜索推荐
|
3天前
|
算法框架/工具 机器学习/深度学习 PyTorch