场景描述 本方案适用于自然语言训练场景,使用神龙 GPU云服务器(SCCGN6)+CPFS进行NLP的 训练,采用Bert模型。这里不使用容器,直接 使用裸机进行NLP的Bert训练,使用飞天AI加 速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙GPU云服务器搭建NLP训练环 境 使用SCC的RDMA网络 使用CPFS存储训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) SCC超级计算集群 CPFS共享存储
名词解释 GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习,视频处理,科 学计算,图形可视化,等应用场景,型号有AMDS7150,NvidiaM40,Nvidia P100,NvidiaP4,NvidiaV100。阿里云成为中国首家与NGCGPU加速容器合 作的云厂商。更多信息,详见GPU云服务器 https://cn.aliyun.com/product/ecs/gpu 。 AIACC是...