场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
这里我们简化 cpfs的配置,不采用 pv/pvc的方式进行部署,直接挂载到 master节点和 worker节点上,容器在使用的 时候,直接像使用本地目录一样使用 cpfs目录上的文件。步骤1 注意:根据实际情况更换下面脚本中的挂载点信息。[root@master001~]#vim install-cpfs.sh#!bin/bash set-e CPFSMountPoint=cpfs-03a2f2ee-mgl5....