服务 gpu

_相关内容

运行共享GPU调度示例

kubectl logs gpu-share-sample-tail=1 预期输出:2023-08-07 09:08:13.931003:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326]Created TensorFlow device(/job:localhost/replica:0/task:0/device:GPU:0 with 2832 MB memory)-...

监控指标说明

GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU可观性场景,支持您基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。本文介绍GPU监控2.0指标的详细信息。指标说明 GPU监控2.0使用的GPU Exporter在兼容开源DCGM ...

收集GPU节点的问题诊断信息

本文介绍如何收集GPU节点的问题诊断信息。Pod问题 当某个申请GPU资源的Pod在某个GPU节点上运行失败,您可以执行以下操作:执行以下命令,查看Pod运行的GPU节点。本文以 test-namespace 命名空间中名为 test-pod 的GPU Pod为例进行说明。...

使用AIACC-Training TensorFlow版

from tensorflow.keras import backend as K K.set_session(tf.Session(config=config))对于TensorFlow 2.x版本:gpus=tf.config.experimental.list_physical_devices('GPU')for gpu in gpus:tf.config.experimental.set_memory_growth(gpu...

在Knative中使用GPU

ECI支持指定ECS GPU规格来创建GPU实例。GPU对应的Docker镜像可以直接运行在ECI GPU实例上,无需安装Tensorflow、CUDA Toolkit等软件。本文介绍如何在Knative中创建并使用ECI GPU实例。前提条件 创建ACK Serverless集群 部署Knative 在...

使用AIACC-Training MXNet版

bin/sh let GPU=OMPI_COMM_WORLD_RANK%OMPI_COMM_WORLD_LOCAL_SIZE export OMP_NUM_THREADS=4 MXNET_VISIBLE_DEVICE=$GPU python train_imagenet.py \-network resnet \-num-layers 50 \-kv-store dist_sync_perseus \-gpus$GPU…执行如下...

什么是集群极速部署工具FastGPU

FastGPU介绍 FastGPU作为衔接您的线下人工智能算法和线上阿里海量GPU计算资源的关键一环,方便您将人工智能计算任务构建在阿里的IaaS资源上。使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,...

GPU实例上使用RAPIDS加速图像搜索任务

本文案例为单机单卡的版本,即一台GPU实例搭载一块GPU卡,并且在阿里gn6v(NVIDIA Tesla V100)实例上执行。执行案例后,对比了GPU加速的RAPIDS cuml KNN与CPU实现的scikit-learn KNN的性能,可以看到GPU加速的KNN向量检索速度为CPU的近...

directx-device-plugin-windows

在阿里上使用虚拟化GPU云服务器时,directx-device-plugin-windows可以为Windows容器提供基于DirectX构建的GPU加速功能。关于虚拟化GPU云服务器的详细介绍,请参见 GPU虚拟化型。directx-device-plugin-windows仅支持v1.20.4及其以上版本...

GPU拓扑感知调度

Kubernetes对节点的GPU拓扑信息不感知,调度过程中对GPU的选择比较随机,选择不同的GPU组合训练速度会存在较大的差异。基于以上问题,ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合...

关闭对应用的GPU隔离能力

kubectl logs disable-cgpu-xxxx-tail=1 预期输出:2020-08-25 08:14:54.927965:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326]Created TensorFlow device(/job:localhost/replica:0/task:0/device:GPU:0 with 15024 MB memory...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件 已创建阿里云GPU实例,且...

什么是AI分布式训练通信优化库AIACC-ACSpeed

上图中,GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接(PIX),而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接(SYS)。优化方法 在原生NCCL通信库中,默认...

AIACC-Training常见问题

本章节汇总了使用AIACC-Training时的常见问题。...启动环节异常慢,查看系统的线程数非常多,有大量omp相关的线程 一般情况下,单GPU分配4个以内的omp线程是合适的,设置 export OMP_NUM_THREADS=4 或者更低可以解决此类问题。

在ACK专有版集群中使用共享GPU调度

如您需要在 ACK专有版集群 中使用共享GPU调度基础版,请参见...基础版迁移专业版 安装共享GPU调度组件 运行共享GPU调度组件 使用共享GPU调度实现仅共享不隔离能力 使用共享GPU调度实现cGPU算力分配策略 解决专业版集群升级共享GPU调度失效问题

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed(AIACC 2.0-AIACC Graph Speeding)是阿里推出的一个基于PyTorch深度学习框架研发的计算优化编译,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,AIACC-AGSpeed是...

功能发布记录

2019-03-19 全部 实例规格族 2018年9月 功能名称 功能描述 发布时间 发布地域 相关文档 实例规格族 最新一代GPU云主机gn6v(V100机型)正式售卖。2018-09-12 全部 实例规格族 2018年3月 功能名称 功能描述 发布时间 发布地域 相关文档 GPU...

【公告】vgn5i和vgn6i停售通知

升配完成后,您可以通过助手或者更换镜像方式将实例的GRID驱动升级为SWL GRID驱动,更多信息,请参见 GPU虚拟化型实例规格族vgn5i/vgn6i。重要 自vgn5i和vgn6i实例升配日起到2024年2月1日期间,您可以通过 请 提交工单 获取代金券,用于...

AIACC-ACSpeed体验示例

AIACC-ACSpeed(简称ACSpeed)作为阿里自研的AI训练加速,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码,您可以参考本文快速体验使用ACSpeed进行模型分布...

AIACC-ACSpeed性能数据

测试版本 ACSpeed版本:1.0.2 Cuda版本:11.1 torch版本:1.8.1+cu111 实例类型:某8卡GPU实例 训练性能效果 本文以AIACC-ACSpeed(简称ACSpeed)v1.0.2版本在阿里某8卡机器上的多机性能数据为例,通过测试不同场景下的模型,展示ACSpeed...

安装和使用AIACC-ACSpeed

前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。支持的版本列表 AIACC-ACSpeed(本文简称ACSpeed)v1.1.0支持...

GPU计算型

计算:处理:3.0 GHz主频的Ampere ® Altra ® Max处理,原生ARM计算平台为Android服务器提供高效的性能和优秀的App兼容性 存储:仅支持ESSD盘和ESSD AutoPL盘 网络:支持IPv4、IPv6 适用场景:基于Android提供APP远端服务,例如...

安装和使用Deepytorch Training

Deepytorch Training是阿里自研的AI加速,面向生成式AI和大模型场景,提供了显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba ...

产品范围

专属区域可以支持的产品范围 专属区域支持的产品范围 IaaS产品:云服务器 ECS、弹性裸金属服务器 EBM、GPU 云服务器、FPGA 云服务器、Alibaba Cloud Linux、容器服务 ACK、容器镜像服务 ACR、块存储 EBS、对象存储 OSS、文件存储 NAS、...

共享GPU调度概述

视频介绍 背景介绍 阿里 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。...

通过密码或密钥认证登录Windows实例

说明 不支持在控制台为Windows实例绑定密钥对,如需通过密钥认证登录Windows实例,您可以自行在实例内部开启SSHD的远程服务并配置密钥,例如Windows系统中的Cygwin SSHD服务或WinSSHD服务。关于Windows如何开启SSHD服务的具体操作,请参见 ...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性...

安装AIACC-Training

前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。背景信息 本文以安装AIACC-Training 1.5.0版本为例,您可以根据...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群 安装的共享GPU组件在 ACK集群Pro版 中无法正常使用,需在 ACK集群Pro版 中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版 中升级共享GPU组件。前提条件 已将 ACK专有版集群 迁移至 ACK集群Pro版 中,且...

通过密码或密钥认证登录Linux实例

并触发助手调用 InvokeCommand,执行名称为 ACS-ECS-EnableSshPublicKey-linux.sh 和 ACS-ECS-SendSshPublicKey-linux.sh 的公共命令,将公钥发送给目标实例,交于实例中运行的助手Agent管理。Workbench通过临时密钥对成功登录实例。在...

Kubernetes集群的GPU问题诊断

curl-o/usr/local/bin/diagnose_gpu.sh http://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/diagnose/diagnose_gpu.sh chmod +x /usr/local/bin/diagnose_gpu.sh运行脚本 当下载完成后,执行如下命令查看脚本使用方法。...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里自研的AI推理加速,针对Torch模型,可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法,以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

地域和可用区

本文介绍阿里地域和可用区的概念、选择指导、两者的关系以及阿里支持的地域和可用区列表。地域 概念 地域指数据中心所在的地理区域,通常按照数据中心所在的城市划分。例如,华北1(青岛)地域表示数据中心所在的城市是青岛。如何选择...

使用阿里Prometheus监控集群GPU资源

使用阿里Prometheus进行GPU监控 登录 容器服务管理控制台。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 详情。在集群管理页左侧导航栏,选择 运维管理>Prometheus监控。在 Prometheus监控 大盘列表页面,单击 GPU ...

ACK集群实现GPU成本优化

通过使用阿里cGPU技术,您可以将GPU利用率不高的应用容器化部署在一块GPU卡上,实现资源利用率提升并且降低成本,且保持对高负载应用的资源保障。背景信息 阿里云GPU团队推出了昊天cGPU方案:通过一个内核驱动,为容器提供了虚拟的GPU...

配置共享GPU调度cGPU算力调度策略

ACK集群Pro版 的共享GPU功能基于cGPU实现。共享GPU算力隔离提供不同的分配策略,您可以在ACK Pro版集群中通过设置共享GPU组件的Policy来选择不同的分配策略。本文介绍通过配置共享GPU算力分配策略,实现不同效果的算力分配。关于cGPU的更多...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...

在Windows容器中使用基于DirectX的GPU加速

DirectX可以允许GPU从事更多的通用计算工作,同时减轻过载,鼓励开发人员更好地将GPU作为并行处理使用。步骤一:为Windows节点安装DirectX设备插件 将DirectX设备插件以DaemonSet方式部署到Windows节点上。使用以下内容创建 directx-...

GPU实例上配置eRDMA

弹性网卡(Elastic Network Interfaces,简称ENI)是专有网络VPC中的虚拟网络接口,用于连接云服务器与专有网络。更多信息,请参见 弹性网卡概述。弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里提供的低延迟、大...

开启集群GPU监控

新一代NVIDIA支持使用数据中心GPU管理DCGM(Data Center GPU Manager)来管理大规模集群中的GPUGPU监控2.0基于NVIDIA DCGM构建功能更强大的GPU监控体系。DCGM提供了种类丰富的GPU监控指标,有如下功能特性:GPU行为监控 GPU配置管理 ...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用