场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
飞天 AI加速工具针对阿里云环境进行了深度优化,核心代码是多框架共享的,各框架的支持均包含以下功能:– 梯度融合通信的自适应多流,自适应梯度融合,对带宽密集的网络模型,性能提升显著(提升 50%至 300%)。III 混合云使用飞天AI加速工具 前言 – 高度优化的梯度协商机制,将大规模节点下梯度协商的开销降低一到两个 ...