超越传统CPU?英特尔新一代AI芯片明年面世

简介: 昨天,英特尔首届AI开发者大会发布了一系列机器学习软件工具,并宣布包括其首款商用神经网络处理器产品将于2019年推出。

昨天,英特尔在旧金山举办第一届AI开发者大会(AI Dev Con),英特尔人工智能负责人Naveen Rao做了开场演讲。

Rao此前是Nervana的CEO和联合创始人,该公司于2016年被英特尔收购。

be30a9eaa552929aea9f25ca4d479025014cfd38

Naveen Rao

在会上,Rao发布了一系列机器学习软件工具,并宣布英特尔新一代产品,其中包括其首款商用NNP产品NNP-L1000,将于2019年推出。

以下从软件和硬件两个方面介绍AI Dev Con的重点。

MKL-DNN是用于深层神经网络的数学内核库。它是神经网络中常见组件的数学程序列表,包括矩阵乘数、批处理规范、归一化和卷积。该库针对在英特尔CPU上部署模型进行了优化。

fa5c0871f90183a5b029446ab9270b01c6cfd449

nGraph开发者选择不同的AI框架,它们都有各自的优点和缺点。为了使芯片具有灵活性,后端编译器必须能够有效地适应所有的芯片。

16f518a37c57a33a0081bbb83db5dad70e2e2655

nGraph是一个编译器,它可以在英特尔的芯片上运行。开发人员可能想要在英特尔的Xeons处理器上训练他们的模型,然后使用英特尔的神经网络处理器(NNP)进行推理。

BigDL是Apache Spark的另一个库,它的目标是通过分布式学习在深度学习中处理更大的工作负载。应用程序可以用Scala或Python编写,并在Spark集群上执行。

OpenVINOA软件工具包用于处理“边缘”(即摄像头或移动电话)视频的模型。开发人员可以实时地做面部识别的图像分类。它预计将在今年晚些时候开放,但现在可以下载了。

再来看硬件部分。

英特尔在这方面比较沉默,没有透露更多的细节。

“几年前Xeons不适合AI,但现在真的已经改变了。”Rao强调,增加的内存和计算意味着自Haswell芯片以来性能提高了100倍,并且推理的性能提高了近200倍。

“你可能听说过GPU比CPU快100倍。这是错误的。”他补充说,“今天大多数推理都是在Xeons上运行的。”

ffb2c961ffb6a352cf0b44ab43e49271c6aa6dca

Rao没有提到Nvidia,他解释说GPU在深度学习方面起了个好头,但受限于严重的内存限制。 Xeon拥有更多的内存,可以扩展到批量大的内存,因此它更适合推理。

在现场,ZIVA CEO James Jacobs还介绍了如何将Xeons用于3D图像渲染。

bdefc95d5fb6721374ff0bcb0d6bfdc7a0f421c6

左边的狮子是没有使用AI,右边的狮子使用了AI,效果很棒。

他也简要地谈到了FPGA加速的问题,并表示英特尔正在研发一种“离散加速器”(discrete accelerator)进行推理,但没有透露更多细节。

同时,还介绍了Intel Movidius的神经计算棒。它是一个U盘,可以运行使用TensorFlow和Caffe编写的模型,耗电量大约一瓦。去年,英特尔公司决定终止其可穿戴设备,如智能手表和健身腕带。

fc7afcbade1a7c463fef9d008fd86d359ffca0b0

现场还展示了一段用计算棒来进行AI作曲的DEMO,人类演奏者演奏一段曲子,AI能够在这段曲子的基础上进行创作。

fad7fd471a293dd832f6b5319fd0104f8fc795d6

英特尔去年宣布神经网络处理器(NNP)芯片。虽然没有发布任何基准测试结果,但英特尔表示将会有可供选择的客户。

Rao也没有透露多少细节。不过,大家所知道的是,它包含12个基于其“Lake Crest”架构的内核,总共拥有32GB内存,在未公开的精度下性能达到40 TFLOPS,理论上的带宽不足800纳秒,在低延迟的互连上,每秒2.4兆的带宽。

最后介绍了NNP L1000,Rao对它的介绍更少,这将是第一个商业NNP模型,并将在2019年推出。它将基于新的Spring Crest体系结构,预计将比之前的Lake Crest模型快3到4倍。

17a7e4cc6d516d0375463b7e4803e3e066963c83

开发者大会的当天,英特尔官网发出一篇Rao的署名文章,对英特尔Nervana神经网络处理器(NNP)进行了介绍。

Nervana NNP有一个明确的设计目标,可实现高计算利用率和支持多芯片互连的真模型并行。

行业里讨论了很多关于最大的理论性能,然而,实际情况是,除非体系结构有能够支持这些计算元素的高利用率的储存器子系统,否则大部分计算都是没有意义的。此外,行业发布的大部分性能数据使用的是大型矩阵,这些矩阵通常在现实世界的神经网络中并不常见。

英特尔专注于为神经网络创建一个平衡的架构,它还包括低延迟的高芯片到芯片带宽。NNP系列的初始性能基准在利用率和互连方面显示出强劲的竞争力。具体包括:

使用A(1536, 2048)和B(2048, 1536)矩阵进行矩阵乘法运算的一般矩阵,在单个芯片上实现了96.4个百分点的计算利用率。这代表了在单个芯片上的实际(非理论)性能的38TOP/s。支持模型并行训练的多芯片分布式GEMM操作实现了A(6144,2048)和B(2048,1536)矩阵大小的接近线性缩放和96.2%的缩放效率,使得多个NNP能够连接在一起,并将我们从其他架构的内存限制中释放出来。

我们测量了89.4 %的单方向芯片到芯片的效率,理论上的带宽小于790ns(纳秒)的延迟,并且将其应用于2.4Tb/s的高带宽、低延迟互连。

c002d70c70f64406d8635de20015113a41ecd82f

所有这些都在单芯片总功率范围内低于210瓦的情况下进行,这只是英特尔Nervana NNP(Lake Crest)原型。

英特尔将在2019年提供第一个商用NNP产品——英特尔Nervana NNP-L1000(Spring Crest)。

预计英特尔Nervana NNP-L1000的性能将达到第一代Lake Crest产品的3-4倍。

0dc4c6d7c9c6e5b6d6fd828d927ad72dd2abc9e8

在英特尔Nervana NNP-L1000中,还将支持bfloat16,这是一种业界广泛用于神经网络的数字格式。

随着时间的推移,英特尔将在其AI产品线上扩展bfloat16支持,包括英特尔Xeons处理器和英特尔FPGA。


原文发布时间为:2018-05-24

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:超越传统CPU?英特尔新一代AI芯片明年面世

相关文章
|
2月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
178 0
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
1月前
|
人工智能 芯片 异构计算
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq成本如何评估?这些都是值得研究和思考的问题。
|
3月前
|
存储 人工智能 芯片
|
29天前
|
人工智能 机器人 芯片
英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言
在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。
|
30天前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
1月前
|
人工智能 算法 芯片
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
【2月更文挑战第24天】全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
20 1
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
文生视频Sora模型发布,是否引爆AI芯片热潮
文生视频Sora模型发布,是否引爆AI芯片热潮
66 0
|
2月前
|
机器学习/深度学习 人工智能 芯片
|
2月前
|
存储 人工智能 自然语言处理
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
36 0
|
3月前
|
人工智能 自动驾驶 芯片

热门文章

最新文章