超级计算集群实现自然语言处理训练
超级计算集群实现自然语言处理训练
场景描述 本方案适用于自然语言训练场景,使用神龙 GPU云服务器(SCCGN6)+CPFS进行NLP的 训练,采用Bert模型。这里不使用容器,直接 使用裸机进行NLP的Bert训练,使用飞天AI加 速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙GPU云服务器搭建NLP训练环 境 使用SCC的RDMA网络 使用CPFS存储训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) SCC超级计算集群 CPFS共享存储
超级计算集群实现自然语言处理训练 最佳实践 部署架构 场景描述 本方案适用于自然语言训练场景,使用神 龙GPU云服务器(SCCGN6)+CPFS进 行NLP的训练,采用Bert模型。这里不使 用容器,直接使用裸机进行NLP的Bert训 练,使用AIACC可以有效提升多机多卡的 训练效率。解决问题  使用神龙GPU云服务器搭建NLP训练 环境  ...
来自: 最佳实践 相关产品:文件存储NAS,超级计算集群
云上高并发系统改造
云上高并发系统改造
场景描述 随着业务的发展,系统并发压力越来越大,如何 进行系统改造以满足高并发场景的业务需求成 为了一个技术难题。本实践抽象于客户的实际场 景,提供高并发下系统改造的理论指导和部分实 操演示。主要适用于以下场景: 1.系统并发压力大,需要进行系统应用改造。 2.数据层并发压力大,需进行分库分表改造。 3.数据库数据量巨大,亟待分库分表解决查询 和写入瓶颈的场景。 方案优势/解决问题 1.在水平扩展阶段,我们除了通过SLB做负载 均衡外,我们可以通过SLB下挂nginx的方 式,增加负载均衡侧的可扩展性 2.在数据库拆分阶段,在做好数据规划后,我 们借助DTS进行数据迁移,通过DRDS将 RDS MySQL的数据拆分到多个分库和分 表中。 产品列表 专用网络VPC 负载均衡SLB 云服务器ECS 数据库RDSMySQL 数据传输服务DTS PrivateZone 分布式关系型数据库DRDS
本着以上原则整个系统的进化可以参考下图片来自云栖社区):整个系统进化分为三个阶段:x轴,水平扩展阶段,通过负载均衡服务器不断地横向扩充应用服务器,水平 扩展最重要的问题是不同服务器之间如何保持 session和会话同步。尽量减少 不同服务器切换时对用户侧的影响,水平扩展后自然会遇到一些问题,如 DB 的瓶颈...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,数据传输,云解析 PrivateZone,云原生分布式数据库PolarDB-X,云速搭CADT
微服务应用问题定位及故障演练
微服务应用问题<em>定位</em>及故障演练
场景描述 用户微服务架构应用基于阿里云 ACK 部署, 通 过 ARMS 监控发现微服务应用的容错能力是否 健壮, 容器编排配置是否合理, 以及节点故障引 发的问题等, 方案通过 AHAS 故障注入模拟生 产环境产生的故障, 通过 ARMS 及时发现问题、 定位问题, 并结合 ARMS 的告警功能快速发现 并解决问题。  发现调用下游一个服务实例出现异常。  发现业务 Pod 故障, 验证业务的稳定性。  发现调用数据库延迟故障, 验证 Pod 的水 平扩容能力。 解决问题 1. 定位并解决微服务应用的容错能力。 2. 定位并解决微服务应用编排合理性。 3. 发现故障并验证系统故障的告警时效性。 产品列表  应用高可用服务 AHAS  性能测试 PTS  应用实时监控服务 ARMS  容器服务 kubernetes 版  负载均衡 SLB  专有网络 VPC  日志服务 SLS
微服务应用问题定位及故障演练 最佳实践 业务架构 场景描述 用户微服务架构应用基于阿里云 ACK部署,通 过 ARMS监控发现微服务应用的容错能力是否 健壮,容器编排配置是否合理,以及节点故障引 发的问题等,方案通过 AHAS故障注入模拟生 产环境产生的故障,通过 ARMS及时发现问题、定位问题,并结合 ARMS的告警功能快速...
来自: 最佳实践 | 相关产品:容器服务 ACK,日志服务(SLS),性能测试 PTS,应用实时监控服务 ARMS ,应用高可用服务 AHAS,云速搭
< 1 2 3 4 ... 8 >
共有8页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用