场景描述 本方案适用于自然语言训练场景,使用神龙 GPU云服务器(SCCGN6)+CPFS进行NLP的 训练,采用Bert模型。这里不使用容器,直接 使用裸机进行NLP的Bert训练,使用飞天AI加 速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙GPU云服务器搭建NLP训练环 境 使用SCC的RDMA网络 使用CPFS存储训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) SCC超级计算集群 CPFS共享存储
步骤3 在实例列表中,定位到scc001和scc002实例,查看并记录其公网IP地址和RDMA 地址。步骤4 通过在scc001上发起读请求,在scc002上接收,测试RDMA协议。1.通过SSH远程登录scc001节点。2.查看网络设置。ifconfigbond0 步骤5 结果如下:bond0:flags=5187 mtu1500 inet200.0.75.2 netmask255.255.255.252 broadcast200.0.171....