ElasticDL: Kubernetes-native 弹性分布式深度学习系统

缪克卢汉 2019-09-12

蚂蚁金服科技

9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,ElasticDL 是第一 个。项目负责人王益和我们分享了 ElasticDL 项目的设计意图和现状,尤其是 ElasticDL 与 TensorFlow 2.0 以及 Kubernetes 的技术关联。

分布式深度学习的技术思路

基于 TensorFlow 的分布式训练系统大致可以分为以下四类:

image.png

其中,ElasticDL 位于田字格的右上角。之所以选择这条技术思路,是为了利用 Kubernetes 实现容错和弹性调度。

高性能计算和云计算

在深度学习技术研发

登录 后评论
下一篇
冒顿单于
11842人浏览
2019-08-28
相关推荐
阿里云深度学习存储解决方案
3688人浏览
2018-10-10 19:42:58
在阿里云上两分钟玩转AlextNet
5246人浏览
2017-03-17 13:54:54
弹性计算双周刊 第23期
2830人浏览
2019-04-02 15:20:41
0
2
0
5426