场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
部署训练任务 训练示例:本示例提供的是利用 Imagenet 数据集进行图片识别训练的场景。Imagenet 数据集 是按照 WordNet架构组织的大规模的带标签的图像数据集,大约 1500万张图片,这些图片都是经过人工筛选和标记的。其中 ISLVRC2012使用的是 Imagenet的子 集,大约 128万张。我们接下来的例子以 ISVRC2012为例。其中验证...