AI训练棒-AI训练棒文档介绍内容-移动阿里云

ACK集群实现弹性裸金属AI训练

本文介绍弹性裸金属AI训练的场景描述、解决问题、架构图及操作参考链接。场景描述本方案适用于AI图片训练场景，尤其是对性能要求苛刻、业务交付紧迫的场景。例如自动驾驶的模型训练（图片）等AI模型训练的场景。本方案使用了SCC超级计算...

人工智能AI

本文列举了AI推理、AI训练、AI加速的最佳实践案例及人工智能AI的解决方案。AI推理基于弹性计算的AI推理 AI训练 超级计算集群结合ACK快速实现NLP训练基于机器学习PAI的云原生AI训练 GPU AI模型训练基于NAS部署可更换模型的FC Stable ...

智能计算灵骏

灵骏是一种大规模高密度计算服务，全称“智能计算灵骏”，提供高性能AI训练、高性能计算所需的异构计算算力服务。

应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景，神行工具包（DeepGPU）为了配合GPU云服务器的计算服务增强能力，也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包（DeepGPU）的...

智能双录质检

针对保险公司销售过程的合规要求，进行针对性的 AI 训练和优化，实现对销售过程中各种关键动作、证件的检测，销售活动关键角色的连续追踪等，实现销售过程的智能化合规监控，极大提升销售的友好度、保单一次性通过率，并降低成本。

使用FastGPU加速AI训练/推理

本文通过使用FastGPU工具一键构建阿里云上的AI训练/推理环境，并使用AIACC加速工具进行模型的训练或推理加速。使用FastGPU可快速搭建环境，使用AIACC可加快模型的训练/推理速度，两者协同使用，可有效提高AI模型的训练/推理效率和性能。...

神行工具包（DeepGPU）计费

神行工具包中的组件主要包括 AI训练加速器Deepytorch Training、AI推理加速器Deepytorch Inference、AI通信加速库Deepnccl、推理引擎DeepGPU-LLM、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署...

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed介绍 AIACC-AGSpeed简称为AGSpeed，AGSpeed作为阿里云自研的AI训练计算优化编译器，对PyTorch深度学习框架训练过程中的计算性能进行深度优化，具有其显著的计算性能优势。AGSpeed的组件架构图如下所示：组件架构说明编译器...

应用场景

超大规模GPU算力系统，全对等网络架构，全资源池化，可以搭配PAI（机器学习平台）使用，支持多种训练框架（Pytorch、TensorFlow、Caffe、Keras、Xgboost、Mxnet等），可以满足多种规模的AI训练和推理业务。AI基础设施。平滑扩容。满足不同...

应用适配概述

应用场景支持的应用场景包括数据库Redis、大数据应用Spark、AI训练、HPC应用、Kafka等，对于不同的应用场景我们有不同的适配方案。对于橙色箭头的适配方案，我们通过无感的方式进行适配，不需要修改代码，只需重新编译即可实现eRDMA能力的...

AI加速概述

PAI-AI加速器主要用于训练加速和推理加速，它通过数据集加速、计算加速、优化算法、调度算法和资源优化技术等多种手段，提高了AI训练和推理的速度、易用性和稳定性，全面提升了AI计算的效率。本文为您介绍AI加速器的功能亮点。AI加速器功能...

产品优势

AI训练计算优化编译器AIACC-AGSpeed AIACC-AGSpeed（简称AGSpeed）作为阿里云自研的AI训练计算优化编译器，针对PyTorch热门框架训练场景中存在的计算瓶颈进行深度优化，具有其显著的性能优势，在提高训练效率的同时能够降低使用成本。...

PAI灵骏智算服务概述

PAI灵骏是一种大规模高密度计算服务，全称“PAI灵骏智算服务”，提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动...

应用场景

AI训练、基因计算、工业仿真等高性能计算 AI训练、基因计算、工业仿真的应用强依赖完善的文件语义和多机访问数据一致性。阿里云NAS提供了多机GPU和CPU计算所需的标准文件接口、多机写和读一致性，以及高聚合吞吐性能。当利用容器环境进行...

PAI GU系列机型使用说明

PAI GU系列机型何以实现高性价比 PAI经过多年的积累，形成了超大规模的AI训练和推理性能集群。在弹性扩缩容和弹性资源池等极致的弹性能力加持下，降低了单一物理资源的使用成本，从而以更少的资源实现相同的性能。PAI的AI极致优化加速，...

什么是神行工具包（DeepGPU）

神行工具包（DeepGPU）介绍神行工具包是具有GPU计算服务增强能力的免费工具集，其中，包括业务快速部署工具、GPU资源拆分工具、AI训练和推理计算优化工具以及针对热门AI模型的专门加速工具等。目前，所有神行工具包中的组件都可以免费搭配...

基础设施安全

算力健康检测进行AI训练时，DLC提供算力健康检测能力，对分布式训练任务的算力资源健康度与性能进行检查。在创建DLC训练任务时可以开启该功能，健康检测会对参与训练的资源进行全面检测，自动隔离故障节点，并触发后台自动化运维流程，...

离线异步任务场景

本文介绍什么是GPU离线异步任务场景和如何使用函数计算GPU异步调用、异步有状态调用服务离线AI推理、离线AI训练、离线GPU加速场景，以及如何基于非Web Server模式的Custom Container满足离线GPU应用场景。场景介绍在离线异步应用场景中，...

什么是Deepytorch Training（训练加速）

Deepytorch Training是阿里云自研的AI训练加速器，为传统AI和生成式AI场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性等。Deepytorch Training介绍 Deepytorch Training面向传统AI和生成式AI场景，...

功能特性

通用型NAS 高级型通用型NAS的一个细分存储类型，适用于容器数据持久化、AI训练数据存储、工业仿真、基因计算等时延敏感型且对时延响应要求较高的文件共享业务。通用型NAS 性能型通用型NAS的一个细分存储类型，适用于Linux/Windows企业...

准备工作

准备灵骏智算资源如果您想高性能完成AI训练任务，提交训练任务前，您需要准备好训练任务所需的灵骏智算资源，并关联到工作空间内。详情请参见灵骏智算资源配额。步骤二：准备镜像提交训练任务前，请准备训练环境需要安装的镜像。以下...

基于eRDMA增强型实例部署AI训练集群

本文介绍如何在eRDMA增强型实例上部署AI训练集群，并测试其性能。AI训练场景架构目前AI分布式训练场景主要的架构如下图所示。主流AI框架底层通过多种不同的通信后端进行多机或多卡通信，例如：MPI/Gloo后端多用于CPU的控制流通信。NCCL是...

使用EAIS训练PyTorch模型（EAIS内置AIACC-Training）

EAIS实例成功绑定至ECS实例后，您需要远程登录该ECS实例，然后使用EAIS实例进行AI训练。本文为您介绍使用Python脚本通过EAIS实例（内置AIACC-Training 2.0加速库）训练PyTorch模型的具体操作。前提条件已将EAIS实例绑定至ECS实例上。具体...

JindoFS实战演示

通过JindoFS，您可以完成数据迁移、OSS访问加速、缓存加速、AI训练加速和JindoTable计算加速。本文为您介绍JindoFS实战的详细文档和演示视频。注意如果视频断链表明该视频已过时，且已被下线。由于产品在不断更新迭代，请以官方控制台操作...

快速入门

本文为您介绍如何快速发布自学习AI训练任务。前提条件已开通视觉智能开放平台自学习服务。操作流程初次使用阿里云视觉智能开放平台自学习工具时，您可以根据以下流程进行操作：步骤一：新建工作区步骤二：创建数据集步骤三：模型训练...

灵骏智算资源配额

阿里云PAI为您提供灵骏智算资源，可用于AI开发和训练，如果您希望进行高性能AI训练、高性能计算，可以通过配置资源配额来使用灵骏智算资源。本文为您介绍如何新增、管理以及使用资源配额。前提条件已创建灵骏智算资源专有资源组并购买了...

产品计费

为AI、HPC等任务提供了丰富的调度策略、任务优先级队列，优化AI训练和推理任务的调度效率，统一AI资源和负载的标准化管理和交付，所以会收取节点的管理费用。云产品资源费用如果您在使用ACK集群过程中使用了其他的阿里云云产品资源，您...

离线异步任务场景

本文介绍什么是GPU离线异步任务场景以及如何使用函数计算GPU异步调用、异步任务服务离线AI推理、AI训练和GPU加速场景，以及如何基于Custom Container满足离线GPU应用场景。场景介绍在离线异步应用场景中，工作负载具有以下一个或多个特征...

阿里云异构计算产品总览

AI训练计算优化编译器AIACC-AGSpeed：是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器，用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能。更多信息，请参见什么是计算优化编译器AIACC-AGSpeed。集群极速...

快速入门

本文为您介绍如何快速发布自学习AI训练任务。前提条件已开通视觉智能开放平台自学习服务。操作流程初次使用阿里云视觉智能开放平台时，您可以根据以下流程快速上手视觉智能开放平台：步骤一：创建生产空间步骤二：上传数据步骤三：...

什么是容器服务灵骏版

阿里云容器服务灵骏版是容器服务Kubernetes版（ACK）针对智能计算灵骏提供的集群类型，提供全托管和高可用控制面...为AI、HPC等任务提供了丰富的调度策略、任务优先级队列，优化AI训练和推理任务效率，统一AI资源和负载的标准化管理和交付。

新建资源组并购买灵骏智算资源

它旨在满足高性能AI训练和计算的异构算力需求，支持DSW、DLC和EAS模块，助力您的AI开发、训练和服务部署操作。本文为您介绍如何创建资源组并购买灵骏智算资源。功能简介资源类型灵骏智算类型的资源，是阿里云自主研发的新一代智能计算...

功能特性

人工智能平台 PAI 功能集功能功能描述参考文档 AI计算资源管理灵骏智算资源灵骏智算资源是阿里云PAI提供的大规模高密度计算资源服务，为您提供高性能AI训练、高性能计算所需的异构计算算力服务，可用于PAI的训练任务。灵骏智算资源...

注册集群概述

AI训练：支持拓扑感知和丰富的任务调度策略，提示训练效率。通过存算分离架构，大幅提升分布式数据训练速度。支持跨集群作业任务调度，提供面向多集群优化的TensorFlow、Spark、CronJob等作业任务分发和调度。AI推理：提供GPU共享，资源...

AIACC-ACSpeed体验示例

AIACC-ACSpeed（简称ACSpeed）作为阿里云自研的AI训练加速器，在提高训练效率的同时能够降低使用成本，可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码，您可以参考本文快速体验使用ACSpeed进行模型分布...

什么是GPU云服务器

工具名称说明神龙AI训练加速引擎AIACC-Training（AIACC训练加速）阿里云自研的分布式训练任务AI加速器，可以显著提升训练性能。神龙AI推理加速引擎AIACC-Inference（AIACC推理加速）阿里云自研的推理AI加速器，可以显著提升推理性能。AI...

2023年

您可以使用GU30系列机型更加高效地进行AI训练和推理任务。2023-4-11 全部地域 PAI GU系列机型使用说明 EAS 全新快捷服务部署控制台上线 EAS 服务部署支持三种部署方式，包括镜像部署服务、镜像部署AI-Web应用、模型Processor部署服务。您...

GPU计算型

存储：I/O优化实例仅支持ESSD云盘和ESSD AutoPL云盘网络：支持IPv6 实例网络性能与计算规格对应（规格越高网络性能越强）适用场景：中小规模的AI训练业务使用CUDA进行加速的HPC业务对GPU处理能力或显存容量需求较高的AI推理业务深度...

数据科学计算概述

同时MaxFrame会将用户提交的作业根据其使用场景自动提交至最优的底层引擎执行（例如SQL Engine、Single Python Engine、Mars Engine），用户无需再关注底层执行引擎的选择，从而高效地完成数据开发分析以及AI训练推理全过程，拉通Data+AI...

产品简介

大数据计算业务场景延时不敏感、同时又注重数据处理吞吐的业务场景，例如Spark、Presto和AI训练等业务场景，使用高性价比的BestEffort实例。支持秒级启动和大规模弹性伸缩，减少任务积压排队等待，提高大规模并行计算的业务效率。高性能...