场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
随着高性 能并行计算的大规模商业化,传统并行文件系统正面临诸多挑战,如存储资源 急剧增长、成本高、运维管理复杂度大、大规模存储系统的稳定性以及性能无 法随规模进行线性扩展等。阿里云 CPFS应运而生。更多信息,请参考阿里云 CPFS介绍:(https://help.aliyun.com/document_detail/111755.html)飞天 AI加速工具加速...