服务器gpu-服务器gpu文档介绍内容-移动阿里云

通过控制台自助排查功能诊断GPU

GPU实例在运行过程中可能会存在潜在的故障隐患或者安全风险，例如显卡故障、驱动程序错误等问题，ECS管理控制台支持配置GPU设备健康检查功能，方便您自行诊断当前实例的GPU卡或驱动是否存在异常，及时发现并解决潜在问题。操作步骤说明 ...

安装并使用cGPU服务

该服务作为阿里云容器服务Kubernetes版ACK（Container Service for Kubernetes）的组件对外提供服务，应用于高性能计算能力的场景，例如机器学习、深度学习、科学计算等，方便您更高效地利用GPU资源，以加速计算任务。本文介绍如何通过安装...

实例命名规则

命名规则阿里云云服务器ECS提供了多种实例规格族，一种实例规格族又包括多个实例规格。其中，实例规格族名称格式为 ecs.规格族，实例规格名称为 ecs.规格族.规格大小。实例具体命名含义如下所示：ecs：云服务器ECS的产品代号。规格族：由...

使用GPU时出现XID 119/XID 120错误导致GPU掉卡

在Linux系统上使用GPU时，可能会因为GPU的GSP（GPU System Processor）组件运行状态异常，导致GPU卡在初始化时提示失败（例如出现XID 119或XID 120错误信息），本文为您介绍这种情况的解决方案。问题现象使用GPU时出现GPU掉卡现象，例如在...

内核更新时无法正常加载NVIDIA GPU（Tesla）驱动

当升级GPU实例的操作系统（例如Alibaba Cloud Linux、RedHat、CentOS、Ubuntu等）内核时，可能会因为两个内核的kABI（Kernel Application Binary Interface）不一致，导致旧内核上构建的GPU（Tesla）驱动无法在新的内核上加载。内核升级后...

【公告】GRID驱动变更通知

尊敬的阿里云用户，NVIDIA将于2023年7月31日后不再对FLS GRID License提供技术支持，且阿里云采购的FLS GRID License也将于2023年9月底到期，为了您的业务不受GRID驱动变更影响，建议您尽快将目前使用的GPU图形加速驱动（采用FLS GRID ...

接入Nvidia GPU监控数据

Nvidia GPU服务器中提供多项监控指标，您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中，进行可视化展示。前提条件已创建实例。具体操作，请参见创建实例。步骤一：安装NVIDIA GPU驱动日志服务使用 nvidia-smi 命令采集...

在GPU实例（计算型和虚拟化型）中安装GRID驱动...

在OpenGL、Direct3D、云游戏等图形加速/图形渲染场景下，安装了GRID驱动的GPU可有效提高图形渲染效率和性能。本文为您介绍通过云助手方式在GPU实例（计算型和虚拟化型）中安装GRID驱动（Windows）的方法。说明创建GPU实例时会默认预装云...

更换操作系统时如何取消自动安装Tesla驱动功能

创建GPU实例时，选择镜像后并同时选择了安装GPU驱动选项，则创建实例后会自动安装GPU（Tesla）驱动。如果因某种原因（例如当前使用的操作系统不能满足业务需求），您需要更换该GPU实例的操作系统，则同时也需要取消自动安装Tesla驱动功能...

卸载GRID驱动

警告 GPU实例必须配备了相关驱动才可以正常使用，如果您因某种原因需要卸载当前驱动，请务必再安装与您实例规格及操作系统相匹配的正确驱动，否则会因GPU实例与安装的驱动不匹配而造成业务无法正常进行的风险。在Windows操作系统中卸载GRID...

基于GPU实例单机部署满血版DeepSeek模型

在GPU实例上部署DeepSeek-V3/R1模型，需要提前在该实例上安装GPU驱动且驱动版本应为550及以上版本，建议您通过ECS控制台购买GPU实例时，同步选中安装GPU驱动。实例创建完成后，会自动安装Tesla驱动、CUDA、cuDNN库等，相比手动安装方式更...

在ComfyUI中使用DeepGPU插件加速图片与视频生成

ComfyUI-deepgpu插件介绍 ComfyUI-deepgpu是一款免费插件，将阿里云DeepGPU推理加速技术以插件的形式集成至ComfyUI，提升在阿里云服务器上运行 ComfyUI工作流时的模型推理速度。该插件优势如下：较高的性能提升：DeepGPU能够有效降低模型...

在GPU计算型实例中手动安装Tesla驱动（Windows）

在深度学习、AI等通用计算业务场景下，安装了Tesla驱动的GPU才能发挥高性能计算能力。Windows系统GPU计算型实例不支持在创建实例时自动安装Tesla驱动，您只能参考本文操作手动安装Tesla驱动。操作步骤说明本文适用于所有Windows系统GPU...

在GPU虚拟化型实例中安装GRID驱动（Linux）

在AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下，安装了GRID驱动的GPU可有效发挥高性能计算能力，或提供更流畅的图形显示效果。本文为您介绍通过云助手快速安装GRID驱动的方法。说明使用云助手安装GRID驱动前，建议...

部署NGC环境构建深度学习开发环境

阿里云在云市场镜像中提供了针对NVIDIA Pascal GPU优化的NGC容器镜像，创建GPU实例时选择NGC容器镜像，可以简单快速地部署NGC容器环境，即时访问优化后的深度学习框架，极大程度缩减产品开发以及业务部署时间，实现开发环境的预安装；...

通过预装驱动的镜像自动加载GRID驱动

针对通用计算场景或图形加速场景，您可以在创建GPU实例时同步加载GRID驱动，也可以在创建GPU实例后通过云助手方式安装GRID驱动，配备了驱动的GPU实例才能提供更好的计算性能和图形渲染能力。本文为您介绍如何在创建GPU实例时通过选择预装...

Tesla或GRID驱动安装指引

创建实例后：通过云助手单独安装GRID驱动（Windows）GPU虚拟化型实例（Linux和Windows）适用的GPU实例：GPU卡为T4、A10等的实例（即 vgn6i-vws、sgn7i-vws、vgn7i-vws 以及 sgn8ia 实例规格），更多信息，请参见 GPU虚拟化型（vgn/sgn系列...

基本概念

DeepGPU 阿里云专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集合。Deepytorch Training 阿里云自研的AI训练加速器，为传统AI和生成式AI场景提供训练加速功能。Deepytorch Inference 阿里云自研的AI推理加速器，通过对模型的...

功能发布记录

2019-03-19 全部 GPU虚拟化型实例规格族vgn5i 2018年9月功能名称功能描述发布时间发布地域相关文档实例规格族最新一代GPU云主机gn6v（V100机型）正式售卖。2018-09-12 全部 GPU计算型实例规格族gn6v 2018年3月功能名称功能描述 ...

在GPU计算型实例中手动安装Tesla驱动（Linux）

在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下，安装了Tesla驱动的GPU才可以发挥高性能计算能力，或提供更流畅的图形显示效果。如果您在创建GPU计算型实例（Linux）时未同时安装Tesla驱动，则需要在创建...

GPU

训练任务按实际执行时长计费，精准到秒，彻底消除了传统模式下GPU服务器的闲置成本，特别适合实验性调参和迭代训练。考虑到模型训练工作负载对资源确定性和灵活性的需求，可以使用 GPU-HPN容量预留方案来预定GPU资源。推理部署阶段：模型...

常见问题

为了有效排查和解决GPU云服务器的相关问题，本文为您汇总了使用GPU时遇到的一些常见问题。类别相关问题 GPU实例 GPU实例支持安卓模拟器吗？GPU实例的配置支持变更吗？普通ECS实例规格族是否支持升级或变更为GPU实例规格族？如何在GPU实例...

安装和使用Deepytorch Training

Deepytorch Training是阿里云自研的AI加速器，面向传统AI和生成式AI场景，在模型训练过程中，可提供显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。说明关于Deepytorch Training的更多信息，请参见什么是...

使用vLLM镜像快速构建模型的推理环境

在GPU的实例上部署vLLM镜像后，可以帮助您快速且方便地构建大语言模型（例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型）的推理环境，主要应用在智能对话系统、文本分类或分析等自然语言处理业务场景，您无需深入了解...

sccgn系列实例使用说明及验证

为进一步优化神龙架构GPU服务器的网络性能，阿里云推出了GPU计算型超级计算集群实例规格族，即sccgn系列实例，该系列机型具备了超强的计算能力和网络通信能力。本文为您介绍sccgn系列实例的使用说明及性能验证。使用说明 sccgn系列机型同时...

卸载Tesla驱动

警告 GPU实例必须配备了相关驱动才可以正常使用。如果您因某种原因需要卸载当前驱动，请务必再安装与您实例规格及操作系统相匹配的正确驱动，否则会因GPU实例与安装的驱动不匹配而造成业务无法正常进行的风险。在Windows操作系统中卸载...

自助诊断GPU节点问题

根据 nvidia-smi 状态排查问题 nvidia-smi（NVIDIA System Management Interface）是一个监测NVIDIA GPU设备状态的命令行实用工具，可以用于管理GPU服务器性能和健康状况。您可以根据检查报告中 NVIDIASMIStatusCode 的结果，参见下表，...

在GPU实例上部署DeepSeek-R1蒸馏模型

模型名称模型版本模型大小 vCPU 内存 GPU显存系统盘推荐实例规格 DeepSeek-R1-Distill-Qwen-1.5B 1.5B（15亿参数）6.7 GB 4核或6核处理器 30 GB RAM 24 GB 至少50 GB空闲空间 ecs.gn7i-c8g1.2xlarge DeepSeek-R1-Distill-Qwen-7B 7B...

【公告】vgn5i和vgn6i停售通知

升配完成后，您可以通过云助手或者更换镜像方式将实例的GRID驱动升级为SWL GRID驱动，更多信息，请参见 GPU虚拟化型实例规格族vgn5i/vgn6i。重要自vgn5i和vgn6i实例升配日起到2024年2月1日期间，您可以通过请提交工单获取代金券，用于...

fabricmanager版本与Tesla驱动版本不一致导致GPU无法...

对于Ubuntu操作系统GPU计算型实例（即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex），如果您采用安装包方式安装了nvidia-fabricmanager服务，则apt-daily服务可能会自动更新已安装的软件包，使得该软件版本与Tesla驱动版本不一致，产生版本兼容性...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里云自研的AI推理加速器，针对Torch模型，可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法，以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

通过YUM方式快速安装NVIDIA Tesla驱动（Alibaba Cloud...

针对Alibaba Cloud Linux 3系统的GPU计算型实例，如果创建实例时未自动安装NVIDIA Tesla驱动，通过手动方式安装该驱动时，需要您先下载软件包，然后编译安装并配置CUDA等组件，操作比较繁琐，而采用YUM方式可以快速安装NVIDIA Tesla驱动及...

洞察

GPU卡分析提供全局视角的阿里云服务器GPU实例的统计和详情分析，包括：GPU卡统计：展示接入数量，功率、温度等瞬时对比以及时序变化趋势分析。资源详情与趋势：展示GPU实例的详细信息，包括时钟速度、功率、温度、内存使用率等分析。

应用程序在低版本CUDA环境中运行时报错

对于Linux操作系统虚拟化型GPU实例，安装了GRID驱动和低版本的CUDA后，可能会因为CUDA版本受限于GPU的驱动版本，导致依赖高版本CUDA的应用程序在该低版本CUDA环境中运行时报错，本文介绍这种情况的解决方案。问题现象对于Linux操作系统...

重启GPU实例后导致Persistence Mode属性开启失效，...

在GPU计算型实例中安装高版本Tesla驱动（例如驱动版本为535或更高版本）后，通过 nvidia-smi-pm 1 命令方式开启Persistence Mode属性，可能会因为驱动版本过高，重启实例后导致该属性开启失效，同时ECC状态或MIG功能设置也失败，本文介绍...

在GPU实例上部署Qwen3-235B-A22B

操作步骤步骤一：部署资源为云服务器ECS实例构建云上的私有网络。登录专有网络管理控制台，在左侧导航栏单击专有网络。在专有网络页面单击创建专有网络。在创建专有网络页面，配置1个专有网络和1台交换机。配置项说明示例值 ...

Ubuntu预装NVIDIA GPU驱动镜像

Ubuntu 22.04/24.04 64位预装NVIDIA GPU驱动镜像是专为AI开发与深度学习场景优化的高性能公共镜像，预置了主流版本的NVIDIA GPU驱动、CUDA、Docker引擎及NVIDIA Container Toolkit 等，开箱即用，快速部署GPU容器化环境，运行大模型训练、...

使用PyTorch时出现“undefined symbol:_...

在Linux系统GPU实例中，可能会因为GPU实例所安装的CUDA版本与PyTorch版本不兼容，导致使用PyTorch时出现报错现象，本文介绍这种情况的解决方案。问题现象在Linux系统（例如Alibaba Cloud Linux 3操作系统）GPU实例中使用PyTorch时，出现...

ECS的GPU使用率空闲检测

ECS实例的GPU在过去某个时间范围内的最大利用率大于等于指定值时，视为“合规”。ECS实例未被云监控监控或者无监控数据时，视为“不适用”。非GPU系列ECS实例不适用本...10)修正指导具体修复操作，请参见 GPU云服务器（gn/vgn/sgn系列）。

与云服务器ECS对比

如果您需要使用更丰富的实例类型，如通用型、计算型、大数据型、弹性裸金属服务器、GPU/FPGA/NPU异构计算型等，支持高并发网站、视频编解码、大型游戏、复杂分布式集群应用等业务场景，请使用云服务器ECS产品。关于云服务器ECS的更多实例...