场景描述 本方案适用于自然语言训练场景,使用神龙 GPU云服务器(SCCGN6)+CPFS进行NLP的 训练,采用Bert模型。这里不使用容器,直接 使用裸机进行NLP的Bert训练,使用飞天AI加 速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙GPU云服务器搭建NLP训练环 境 使用SCC的RDMA网络 使用CPFS存储训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) SCC超级计算集群 CPFS共享存储
–.meta文件是MetaGraphDef序列化的二进制文件,保存了网络结构相关的数 据,包括graph_def和saver_def等;–.index文件为数据文件提供索引,存储的核心内容是以tensorname为键以 BundleEntry为值的表格entries,BundleEntry主要内容是权值的类型、形状、偏移、校验和等信息。–.data文件保存所有变量的值,即网络权值。 ...