寒武纪推出第二代云端AI芯片,采用16nm工艺性能比上代提升4倍

简介: 寒武纪宣布推出第二代云端AI芯片思元270(MLU270)及板卡产品,目标是提供速度更快、功耗更低、性价比更高的AI加速解决方案。

雷锋网消息,2019年6月20日,寒武纪宣布推出第二代云端AI芯片思元270(MLU270)及板卡产品,目标是提供速度更快、功耗更低、性价比更高的AI加速解决方案。

据悉,思元270芯片采用TSMC 16nm工艺制造,其板卡产品可以通过PCIe接口快速部署在服务器和工作站内。寒武纪本次公开的思元270板卡产品面向人工智能推断任务,在ResNet50上推理性能超过10000fps。MLU270-S4 型板卡(半高半长)面向数据中心部署,集成16GB DDR4 内存,支持ECC;MLU270-F4型板卡(全高全长)采用主动散热设计,面向非数据中心部署场景,集成16GB DDR4 内存,支持ECC。面向人工智能训练任务的思元270训练版板卡产品将于本年度第四季度推出。

TB1P1OSdBGw3KVjSZFDXXXWEpXa.png

思元270采用寒武纪公司自主研发的MLUv02指令集,可支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,更为视觉应用集成了充裕的视频和图像编解码硬件单元。思元270芯片处理非稀疏深度学习模型的理论峰值性能提升至上一代MLU100的4倍,达到128TOPS(INT8);同时兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS;支持浮点运算和混合精度运算。

TB1lzqOdBWD3KVjSZKPXXap7FXa.png

官方表示,寒武纪在定点训练领域已实现关键性突破,思元270训练版板卡将可通过8位或16位定点运算提供卓越的人工智能训练性能,该技术有望成为AI芯片发展的重要里程碑。在系统软件和工具链方面,思元270继续支持寒武纪Neuware软件工具链,支持业内各主流编程框架。此外,为方便开发者更好地挖掘思元270超强的运算能力、开拓更多的应用领域,寒武纪将在近期向社区和开发者开放专用编程语言。

TB1Q_mMdv1G3KVjSZFkXXaK4XXa.png

寒武纪的人工智能处理器已经在智能手机中大规模出货,在云端产品方面,寒武纪去年5月推出第一代云端AI芯片MLU100及板卡于2018年5月发布。MLU100系列产品已为客户在智能视频分析、语音合成、推荐引擎、AI云等多个领域提供了高能效比的解决方案。

寒武纪表示,此次推出中文品牌“思元”是对MLU品牌的有机补充,其含义为“思考的基本单元”。思元商标的字体来自于中国元代书法家赵孟頫。

TB19X1MdA9E3KVjSZFGXXc19XXa.png

寒武纪是AI芯片领域的独角兽,2018年6月,寒武纪宣布完成数亿美元的B轮融资,投后整体估值达25亿美元。雷锋网雷锋网(公众号:雷锋网)

目录
相关文章
|
2月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
175 0
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
1月前
|
人工智能 芯片 异构计算
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq成本如何评估?这些都是值得研究和思考的问题。
|
26天前
|
人工智能 机器人 芯片
英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言
在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。
|
26天前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
27天前
|
人工智能 程序员 测试技术
AI程序员Devin在软件开发中的性能评估
【2月更文挑战第29天】AI程序员Devin在软件开发中取得突破,成功解决SWE-bench基准测试13.86%的问题,超出未辅助基线1.96%。展示强大编程能力,但处理复杂任务成功率仅4.80%,表明局限性。Devin能执行多步计划和自我纠错,但在理解复杂逻辑和用户偏好上需改进。在测试驱动开发场景下,成功通过率提升至23%,显示出合作潜力。然而,AI在软件工程领域仍有很大改进空间。
42 1
AI程序员Devin在软件开发中的性能评估
|
29天前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
1月前
|
人工智能 算法 芯片
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
【2月更文挑战第24天】全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
20 1
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
|
1月前
|
人工智能 前端开发 数据挖掘
Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石
北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
|
1月前
|
人工智能 前端开发 PyTorch
AI加速引擎PAI-TorchAcc:整体介绍与性能概述
PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。本文详细介绍PAI-TorchAcc的产品能力与性能。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
文生视频Sora模型发布,是否引爆AI芯片热潮
文生视频Sora模型发布,是否引爆AI芯片热潮
65 0

热门文章

最新文章