通过创建ACK集群Pro版,使用云原生AI套件提交模型微调训练任务与部署GPU共享推理服务。支持快速创建Kubernetes集群,白屏配置任务数据共享存储和下载,并通过命令行工具Arena快速提交模型训练任务、部署推理服务。使用云原生AI套件可以让模型训练和推理提效,提高GPU资源利用率。
简化运维 基于容器服务ACK对GPU等异构资源进行统一管理、运维和分配,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力。提升AI工程效率 通过命令行工具Arena,屏蔽底层资源、Kubernetes、运行环境等复杂度,以统一的方式管理系统、任务,模型开发、训练、推理等全生命周期。架构与部署 一键训练大模型...