阿里云GPU云并行运算-阿里云GPU云并行运算文档介绍内容-移动阿里云

产品优势

阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式，神行工具包（DeepGPU）是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包（DeepGPU）的优势。...

GPU云服务器安全性说明

GPU云服务器的云上安全性是阿里云和客户的共同责任，是阿里云在面对当前的网络安全形势和挑战时所采取的措施，以及提高用户在使用账号、实例、操作系统和资源等方面的安全性所具备的能力。GPU云服务器的云上安全性涉及的内容与云服务器ECS...

云速搭部署GPU云服务器

通过云速搭实现GPU云服务器的部署，这里使用 ECS 的 UserData 特性自动安装GPU 驱动、AIACC 等组件，减少配置工作量。涉及产品专有网络VPC GPU云服务器 弹性公网IP 云速搭CADT 方案架构操作步骤具体操作步骤请参考《云速搭部署 GPU ...

快速搭建AI对话机器人

本文介绍如何使用阿里云GPU云服务器，基于ChatGLM-6B语言模型快速搭建AI对话机器人。背景信息 ChatGLM-6B是一个开源的、支持中英双语对话的语言模型，它基于General Language Model（GLM）架构，具有62亿参数；并使用了和ChatGPT相似的技术...

什么是神行工具包（DeepGPU）

神行工具包（DeepGPU）是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合，旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包（DeepGPU）中的组件可以帮助您更方便地利用阿里云的云上GPU资源，...

ACK集群实现GPU AI模型训练

场景描述本方案适用于AI图片训练场景，使用CPFS和NAS作为共享存储，利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

从0快速搭建个人版“对话大模型”

本教程介绍如何在阿里云GPU云服务器上基于 Alpaca大模型快速搭建个人版“对话大模型”。背景信息 Alpaca大模型是一款基于LLaMA的大语言模型，它可以模拟自然语言进行对话交互，并协助用户完成写作、翻译、编写代码、生成脚本等一系列创作...

GPU云服务器

GPU云服务器提供GPU加速计算能力，实现GPU计算资源的即开即用和弹性伸缩。作为阿里云弹性计算家族的一员，GPU云服务器结合了GPU计算力与CPU计算力，满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。

部署GPU云服务器

请按照标签顺序依次点击新建应用，构建如下图所示的包含GPU云服务器实例的应用架构：本文所选地域为华北2（北京）可用区H。双击GPU实例，配置相关参数。参考创建GPU实例，选择对应的实例规格、镜像及版本。修改自定义登录密码。在实例...

什么是GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性能够快速开通一台或多台GPU云服务器实例。实例规格（vCPU、内存及GPU）支持灵活变更，并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定，无法灵活变更。带宽一次性购买，无法...

准实时推理场景

与函数计算同等GPU规格的GPU云服务器单价约为 14元/小时。更多计费详情，请参见 GPU云服务器计费。示例一假设您的GPU函数一天调用量为3600次，每次为1秒钟，使用4 GB显存规格的GPU实例（模型大小为3 GB左右）。您的日均资源利用率（仅时间...

阿里云异构计算产品总览

GPU云服务器 GPU云服务器是基于GPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面，GPU可以提供上百倍于CPU的计算能力。作为阿里云弹性计算家族的一员，GPU云服务器结合了GPU计算力...

客户案例

《云速搭部署 EIP 实现共享带宽/流量包管理》《云速搭 – NAT 网关部署及应用最佳实践》《云速搭部署 GPU 云服务器》云上会展有限公司立足于打造线上会展数字基础设施，充分发挥阿里巴巴集团在人工智能、数据技术、云计算等方面的积累，...

GPU云产品选型决策指引

本文介绍如何根据您的业务情况选择不同的GPU云产品以及应用场景。GPU选型指引请参见以下流程图。关于函数计算Serverless GPU的详细应用场景介绍，请参见以下文档：准实时推理场景实时推理场景离线异步调用异步任务场景

安装并使用DeepNCCL

开发人员可以根据实际业务情况，在不同的GPU云服务器上安装DeepNCCL通信库，以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。说明关于DeepNCCL的更多信息，请参见什么是AI...

配置共享GPU调度节点选卡策略

配置项说明实例规格架构选择 GPU云服务器，选择多个GPU实例规格。由于只有在节点有多张GPU卡的情况下，节点选卡策略才能看出效果，建议选择带有多张GPU卡机型。期望节点数设置节点池初始节点数量。如无需创建节点，可以填写为0。节点...

API参考

如果您熟悉网络服务协议和一种以上编程语言，推荐您调用API管理您的云上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致，详情请参见 ECS API简介和 ECS API概览。

功能发布记录

2019-03-19 全部 GPU虚拟化型实例规格族vgn5i 2018年9月功能名称功能描述发布时间发布地域相关文档实例规格族最新一代GPU云主机gn6v（V100机型）正式售卖。2018-09-12 全部 GPU计算型实例规格族gn6v 2018年3月功能名称功能描述 ...

使用RAM进行访问控制

GPU云服务器使用RAM进行访问控制时，其身份管理、权限策略以及服务关联角色与云服务器ECS一致，具体说明如下：身份管理使用RAM用户和RAM角色，通过授权来访问和管理阿里云账号（即主账号）下的资源。更多信息，请参见身份管理。基于身份...

开启GPU加速计算

加速原理数据库中GPU并行加速是指对象级的并行，将单个字段的对象转换为适合并行计算的模型，利用GPU超多核心的能力并行计算。注意事项对于并发数较大的场景，单个GPU设备会存在资源受限的情况，所以建议在会话中关闭GPU加速计算功能。...

开启GPU加速计算

加速原理数据库中GPU并行加速是指对象级的并行，将单个字段的对象转换为适合并行计算的模型，利用GPU超多核心的能力并行计算。注意事项对于并发数较大的场景，单个GPU设备会存在资源受限的情况，所以建议在会话中关闭GPU加速计算功能。...

新功能发布记录

本章节介绍了云服务器ECS的产品功能和对应的文档动态。镜像版本更新信息请参见公共镜像发布记录、Alibaba Cloud Linux 2发布记录及 Alibaba Cloud Linux 3发布记录。服务器迁移中心SMC功能更新信息请参见 SMC新功能发布记录。更多有关...

基于AIACC加速器快速实现Stable Diffusion生成特定...

本文介绍如何使用GPU云服务器搭建Stable Diffusion模型，并基于ControlNet框架，快速生成特定物体图片。背景信息 Stable Diffusion（简称SD）是一种AI模型，它经过训练可以逐步对随机高斯噪声进行去噪以生成所需要的图像。DreamBooth 是一...

【公告】无影云电脑新增企业办公型、企业图形型云电脑...

企业图形型是一种GPU云电脑，暂不支持升降配。适用于以下场景：云游戏的云端实时渲染 AR和VR的云端实时渲染 AI（DL和ML）推理，适合弹性部署含有AI推理计算应用的互联网业务深度学习的教学练习环境深度学习的模型实验环境

Tesla或GRID驱动安装指引

驱动安装示意阿里云GPU实例支持安装Tesla驱动和GRID驱动，驱动类型以及安装方式受实例规格、操作系统等因素影响，示意图如下所示。重要部分实例规格例如gn7s实例（GPU卡为A30）安装驱动后，仅适用于深度学习、AI、科学计算等通用计算场景...

DescribeDesktops-查询云电脑详细信息

0 GpuCategory long 是否为 GPU 云电脑。0 GpuDriverVersion string 云电脑的 GPU 驱动版本号。null ZoneType string 查询可用区的类型。默认取值为 AvailabilityZone，即普通云上可用区。AvailabilityZone FotaUpdate object 云电脑的镜像...

内置时空数据引擎Ganos

提供云上软硬件一体化的遥感影像数据库支持 Ganos支持各类空间栅格型数据的导入导出、拼接、剪切、统计分析等操作，可建模对象包括全色/多光谱/高光谱各类遥感影像、数字高程模型、三维体素模型等，并融合了云上GPU的并行计算加速能力和OSS...

安装和使用Deepytorch Training

前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 18.04或更高版本。已安装NVIDIA Driver、CUDA且满足相应的版本要求。创建GPU实例时，选择镜像后，建议您同时选中安装GPU驱动...

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed（AIACC 2.0-AIACC Graph Speeding）是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器，用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，相比原始的神龙AI加速引擎AIACC，AIACC-AGSpeed是...

安装和使用AIACC-ACSpeed

前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。支持的版本列表 AIACC-ACSpeed（本文简称ACSpeed）v1.1.0支持...

ACK集群实现GPU成本优化

背景信息阿里云GPU团队推出了昊天cGPU方案：通过一个内核驱动，为容器提供了虚拟的GPU设备节点，从而实现了显存和算力的隔离；通过用户态轻量的运行库来配置容器内的虚拟GPU设备节点。昊天cGPU在做到算力调度与显存隔离的同时，也做到了...

AIACC-ACSpeed体验示例

重要在操作前，确保您已创建具有初始Python环境的阿里云GPU实例。执行如下命令，安装指定版本的PyTorch。本示例以torch 1.9.1为例。pip install torch=1.9.1+cu111 torchvision=0.10.1+cu111 torchaudio=0.9.1-f ...

ack-ai-installer

在共享GPU调度的基础上，ack-ai-installer（cgpu-installer）还结合了阿里云GPU容器共享技术cGPU，支持GPU显存隔离，使不同的应用程序或进程在GPU内存中相互隔离，避免各个任务之间相互干扰，提高整个系统的性能和效率。同时，ack-ai-...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed（简称AGSpeed）专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，相比原始的神龙AI加速引擎AIACC，可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件已创建阿里云GPU实例，且...

PAI-TF概述

警告公共云GPU服务器即将过保下线，您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练，请前往DLC提交任务，具体操作请参见创建训练任务。背景 TensorFlow是Google最新的开源深度学习计算框架，支持CNN、RNN及LSTM等多种...

使用DeepGPU-LLM镜像快速构建模型的推理环境

说明 DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，可以帮助您实现大语言模型在GPU上的高性能推理优化功能。更多信息，请参见什么是推理引擎DeepGPU-LLM。准备工作获取DeepGPU-LLM容器...

重启实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件待重启的实例必须处于运行中状态。背景信息重启操作是维护云服务器的一种常用方式，如系统更新、重启保存相关配置等...

应用场景

GPU云服务器应用场景直播实时视频转码阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码，以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下...

什么是推理引擎DeepGPU-LLM

产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性和广泛适用性，旨在优化大语言模型在GPU云服务器上的推理过程，通过优化和并行计算等技术手段，为您提供免费的高性能、低延迟推理服务。DeepGPU-LLM的关联布局图如下所示：...

云产品范围

专属区域可以支持的云产品范围专属区域支持的云产品范围 IaaS产品：云服务器 ECS、弹性裸金属服务器 EBM、GPU 云服务器、FPGA 云服务器、Alibaba Cloud Linux、容器服务 ACK、容器镜像服务 ACR、块存储 EBS、对象存储 OSS、文件存储 NAS、...