服务 gpu-服务 gpu文档介绍内容-移动阿里云

运行共享GPU调度示例

kubectl logs gpu-share-sample-tail=1 预期输出：2023-08-07 09:08:13.931003:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326]Created TensorFlow device(/job:localhost/replica:0/task:0/device:GPU:0 with 2832 MB memory)-...

监控指标说明

GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU可观性场景，支持您基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。本文介绍GPU监控2.0指标的详细信息。指标说明 GPU监控2.0使用的GPU Exporter在兼容开源DCGM ...

收集GPU节点的问题诊断信息

本文介绍如何收集GPU节点的问题诊断信息。Pod问题当某个申请GPU资源的Pod在某个GPU节点上运行失败，您可以执行以下操作：执行以下命令，查看Pod运行的GPU节点。本文以 test-namespace 命名空间中名为 test-pod 的GPU Pod为例进行说明。...

使用AIACC-Training TensorFlow版

from tensorflow.keras import backend as K K.set_session(tf.Session(config=config))对于TensorFlow 2.x版本：gpus=tf.config.experimental.list_physical_devices('GPU')for gpu in gpus:tf.config.experimental.set_memory_growth(gpu...

在Knative中使用GPU

ECI支持指定ECS GPU规格来创建GPU实例。GPU对应的Docker镜像可以直接运行在ECI GPU实例上，无需安装Tensorflow、CUDA Toolkit等软件。本文介绍如何在Knative中创建并使用ECI GPU实例。前提条件创建ACK Serverless集群部署Knative 在...

使用AIACC-Training MXNet版

bin/sh let GPU=OMPI_COMM_WORLD_RANK%OMPI_COMM_WORLD_LOCAL_SIZE export OMP_NUM_THREADS=4 MXNET_VISIBLE_DEVICE=$GPU python train_imagenet.py \-network resnet \-num-layers 50 \-kv-store dist_sync_perseus \-gpus$GPU…执行如下...

什么是集群极速部署工具FastGPU

FastGPU介绍 FastGPU作为衔接您的线下人工智能算法和线上阿里云海量GPU计算资源的关键一环，方便您将人工智能计算任务构建在阿里云的IaaS资源上。使用FastGPU构建人工智能计算任务时，您无需关心IaaS层的计算、存储、网络等资源部署操作，...

在GPU实例上使用RAPIDS加速图像搜索任务

本文案例为单机单卡的版本，即一台GPU实例搭载一块GPU卡，并且在阿里云gn6v（NVIDIA Tesla V100）实例上执行。执行案例后，对比了GPU加速的RAPIDS cuml KNN与CPU实现的scikit-learn KNN的性能，可以看到GPU加速的KNN向量检索速度为CPU的近...

directx-device-plugin-windows

在阿里云上使用虚拟化GPU云服务器时，directx-device-plugin-windows可以为Windows容器提供基于DirectX构建的GPU加速功能。关于虚拟化GPU云服务器的详细介绍，请参见 GPU虚拟化型。directx-device-plugin-windows仅支持v1.20.4及其以上版本...

GPU拓扑感知调度

Kubernetes对节点的GPU拓扑信息不感知，调度过程中对GPU的选择比较随机，选择不同的GPU组合训练速度会存在较大的差异。基于以上问题，ACK基于Scheduling Framework机制，实现GPU拓扑感知调度，在节点的GPU组合中选择具有最优训练速度的组合...

关闭对应用的GPU隔离能力

kubectl logs disable-cgpu-xxxx-tail=1 预期输出：2020-08-25 08:14:54.927965:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326]Created TensorFlow device(/job:localhost/replica:0/task:0/device:GPU:0 with 15024 MB memory...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed（简称AGSpeed）专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，相比原始的神龙AI加速引擎AIACC，可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件已创建阿里云GPU实例，且...

什么是AI分布式训练通信优化库AIACC-ACSpeed

上图中，GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接（PIX），而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接（SYS）。优化方法在原生NCCL通信库中，默认...

AIACC-Training常见问题

本章节汇总了使用AIACC-Training时的常见问题。...启动环节异常慢，查看系统的线程数非常多，有大量omp相关的线程一般情况下，单GPU分配4个以内的omp线程是合适的，设置 export OMP_NUM_THREADS=4 或者更低可以解决此类问题。

在ACK专有版集群中使用共享GPU调度

如您需要在 ACK专有版集群中使用共享GPU调度基础版，请参见...基础版迁移专业版安装共享GPU调度组件运行共享GPU调度组件使用共享GPU调度实现仅共享不隔离能力使用共享GPU调度实现cGPU算力分配策略解决专业版集群升级共享GPU调度失效问题

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed（AIACC 2.0-AIACC Graph Speeding）是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器，用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，相比原始的神龙AI加速引擎AIACC，AIACC-AGSpeed是...

功能发布记录

2019-03-19 全部实例规格族 2018年9月功能名称功能描述发布时间发布地域相关文档实例规格族最新一代GPU云主机gn6v（V100机型）正式售卖。2018-09-12 全部实例规格族 2018年3月功能名称功能描述发布时间发布地域相关文档 GPU...

【公告】vgn5i和vgn6i停售通知

升配完成后，您可以通过云助手或者更换镜像方式将实例的GRID驱动升级为SWL GRID驱动，更多信息，请参见 GPU虚拟化型实例规格族vgn5i/vgn6i。重要自vgn5i和vgn6i实例升配日起到2024年2月1日期间，您可以通过请提交工单获取代金券，用于...

AIACC-ACSpeed体验示例

AIACC-ACSpeed（简称ACSpeed）作为阿里云自研的AI训练加速器，在提高训练效率的同时能够降低使用成本，可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码，您可以参考本文快速体验使用ACSpeed进行模型分布...

AIACC-ACSpeed性能数据

测试版本 ACSpeed版本：1.0.2 Cuda版本：11.1 torch版本：1.8.1+cu111 实例类型：某8卡GPU实例训练性能效果本文以AIACC-ACSpeed（简称ACSpeed）v1.0.2版本在阿里云某8卡机器上的多机性能数据为例，通过测试不同场景下的模型，展示ACSpeed...

安装和使用AIACC-ACSpeed

前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。支持的版本列表 AIACC-ACSpeed（本文简称ACSpeed）v1.1.0支持...

GPU计算型

计算：处理器：3.0 GHz主频的Ampere ® Altra ® Max处理器，原生ARM计算平台为Android服务器提供高效的性能和优秀的App兼容性存储：仅支持ESSD云盘和ESSD AutoPL云盘网络：支持IPv4、IPv6 适用场景：基于Android提供APP远端服务，例如云...

安装和使用Deepytorch Training

Deepytorch Training是阿里云自研的AI加速器，面向生成式AI和大模型场景，提供了显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba ...

云产品范围

专属区域可以支持的云产品范围专属区域支持的云产品范围 IaaS产品：云服务器 ECS、弹性裸金属服务器 EBM、GPU 云服务器、FPGA 云服务器、Alibaba Cloud Linux、容器服务 ACK、容器镜像服务 ACR、块存储 EBS、对象存储 OSS、文件存储 NAS、...

共享GPU调度概述

视频介绍背景介绍阿里云容器服务 Kubernetes 版 ACK（Container Service for Kubernetes）开源了GPU共享调度之后，您能在阿里云、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。...

通过密码或密钥认证登录Windows实例

说明不支持在控制台为Windows实例绑定密钥对，如需通过密钥认证登录Windows实例，您可以自行在实例内部开启SSHD的远程服务并配置密钥，例如Windows系统中的Cygwin SSHD服务或WinSSHD服务。关于Windows如何开启SSHD服务的具体操作，请参见 ...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性...

安装AIACC-Training

前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。背景信息本文以安装AIACC-Training 1.5.0版本为例，您可以根据...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群安装的共享GPU组件在 ACK集群Pro版中无法正常使用，需在 ACK集群Pro版中升级相关组件，以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版中升级共享GPU组件。前提条件已将 ACK专有版集群迁移至 ACK集群Pro版中，且...

通过密码或密钥认证登录Linux实例

并触发云助手调用 InvokeCommand，执行名称为 ACS-ECS-EnableSshPublicKey-linux.sh 和 ACS-ECS-SendSshPublicKey-linux.sh 的公共命令，将公钥发送给目标实例，交于实例中运行的云助手Agent管理。Workbench通过临时密钥对成功登录实例。在...

Kubernetes集群的GPU问题诊断

curl-o/usr/local/bin/diagnose_gpu.sh http://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/diagnose/diagnose_gpu.sh chmod +x /usr/local/bin/diagnose_gpu.sh运行脚本当下载完成后，执行如下命令查看脚本使用方法。...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里云自研的AI推理加速器，针对Torch模型，可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法，以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

地域和可用区

本文介绍阿里云地域和可用区的概念、选择指导、两者的关系以及阿里云支持的地域和可用区列表。地域概念地域指数据中心所在的地理区域，通常按照数据中心所在的城市划分。例如，华北1（青岛）地域表示数据中心所在的城市是青岛。如何选择...

使用阿里云Prometheus监控集群GPU资源

使用阿里云Prometheus进行GPU监控登录容器服务管理控制台。在集群列表页面，单击目标集群名称或者目标集群右侧操作列下的详情。在集群管理页左侧导航栏，选择运维管理>Prometheus监控。在 Prometheus监控大盘列表页面，单击 GPU ...

ACK集群实现GPU成本优化

通过使用阿里云cGPU技术，您可以将GPU利用率不高的应用容器化部署在一块GPU卡上，实现资源利用率提升并且降低成本，且保持对高负载应用的资源保障。背景信息阿里云GPU团队推出了昊天cGPU方案：通过一个内核驱动，为容器提供了虚拟的GPU...

配置共享GPU调度cGPU算力调度策略

ACK集群Pro版的共享GPU功能基于cGPU实现。共享GPU算力隔离提供不同的分配策略，您可以在ACK Pro版集群中通过设置共享GPU组件的Policy来选择不同的分配策略。本文介绍通过配置共享GPU算力分配策略，实现不同效果的算力分配。关于cGPU的更多...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理，能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件已创建ACK Pro版集群或已创建ACK专有版集群。创建GPU节点...

在Windows容器中使用基于DirectX的GPU加速

DirectX可以允许GPU从事更多的通用计算工作，同时减轻过载，鼓励开发人员更好地将GPU作为并行处理器使用。步骤一：为Windows节点安装DirectX设备插件将DirectX设备插件以DaemonSet方式部署到Windows节点上。使用以下内容创建 directx-...

在GPU实例上配置eRDMA

弹性网卡（Elastic Network Interfaces，简称ENI）是专有网络VPC中的虚拟网络接口，用于连接云服务器与专有网络。更多信息，请参见弹性网卡概述。弹性RDMA（Elastic Remote Direct Memory Access，简称eRDMA）是阿里云提供的低延迟、大...

开启集群GPU监控

新一代NVIDIA支持使用数据中心GPU管理器DCGM（Data Center GPU Manager）来管理大规模集群中的GPU，GPU监控2.0基于NVIDIA DCGM构建功能更强大的GPU监控体系。DCGM提供了种类丰富的GPU监控指标，有如下功能特性：GPU行为监控 GPU配置管理 ...