RAPIDS加速机器学习
RAPIDS加速机器学习
场景描述 本方案适用于使用RAPIDS加速库+GPU 云服务器来对机器学习任务或者数据科学 任务进行加速的场景。相比CPU,利用 GPU+RAPIDS在某些场景下可以取得非常 明显的加速效果。 解决问题 1.搭建RAPIDS加速机器学习环境 2.使用容器服务Kubernetes版部署 RAPIDS环境 3.使用NAS存储计算数据 产品列表 容器服务Kubernetes版 GPU云服务器 文件存储NAS
31 文档版本信息:20191209 RAPIDS加速机器学习 使 用容器服 务 A CK部署 RAPIDS环境 步骤5 重新从头按执行一遍,看下时间。32 文档版本信息:20191209 RAPIDS加速机器学习 使 用容器服 务 A CK部署 RAPIDS环境 这里看到使用 CPU时,运行时间是 15min 7s,而使用 GPU时,时间是 35.9s,加速 效果十分明显。注意:这里另个...
来自: 最佳实践 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
基于弹性计算的AI推理
基于弹性计算的AI推理
场景描述 本方案适用于使用GPU进行AI在线推理的场 景。在推理之前,模型已经训练完成。例如,刷脸 支付中,我们在刷脸的时候,就是推理的一个过 程。再比如图像分类,目标检测,语音识别,语 义分析等返回结果的过程。 解决问题 使用GPU云服务器搭建推理环境 使用容器服务Kubernetes版构建推理 环境 使用NAS存储模型数据 使用飞天AI加速推理工具加速推理 产品列表 GPU云服务器 容器服务Kubernetes版 NAS共享存储
步骤7 查看基础组件是否安装成功#kubectl get all-n arena-system 步骤8 检查 gpu能力已经添加成功#arena top node 47 企业上云实践 基于弹性计算的 AI推理|部署飞天 AI加速推理工具的 demo 这里看到三个worker节点GPU一列都是1,每个worker节点配置了1个GPU。4.4.2.使用存储卷 步骤1 前面已经部署过了,这里用 nas这个存储...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
ECS+EAIS弹性伸缩最佳实践
ECS+EAIS弹性伸缩最佳实践
弹性加速计算实例EAIS通常与ECS配合使用,在大规模的弹性推理场景中,需要实现ECS弹性扩容的过程中自动创建弹性EAIS实例,并绑定到ECS上。当前弹性伸缩组ESS暂不满足此特殊场景的弹性伸缩需求。 本方案将通过结合CADT API、函数计算和Serverless工作流,演示如何快速且以可视化的方式进行此场景的弹性伸缩。
文档版本:20220810 37 ECS+EAIS弹性伸缩 模拟定时扩缩容任务 {"mode":"create","period":50,"template_id":"MVXXXXXXXXXXSJRA","instances":[{"node_type":"vpc","node_name":"vpc","id":"vpc-ufxxxxxxxxxxl65xzho4f"},{"node_type":"vswitch","node_name":"vswitch","id":"vsw-uf6xxxxxxxxxx9p3ym8ob"},{"node_type":...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,负载均衡 SLB,函数计算,Serverless 工作流,云速搭CADT,弹性加速计算实例
混合云使用Ali-Perseus
混合云使用Ali-Perseus
场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
混合云使用飞天 AI加速工具 最佳实践 场景描述 部署架构 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云 GPU服务实例+飞天 AI加速工 具,并采用阿里云 CPFS存储,运行 AI训 练+AI推理作业的操作步骤。解决问题 1.利用云企业网打通两个地域的 VPC,自建 Kubernetes集群 阿里云最佳实践分享群 ...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,云企业网
混合云存储构建VMware虚拟化平台
混合云存储构建VMware虚拟化平台
场景描述 本文以混合云存储阵列SA2600系统为例,介绍如 何在混合云存储环境下部署VMware虚拟化平台, 以及混合云环境下虚拟机的部署、扩容、云备份等功 能演示。 解决问题 1.如何使用混合云存储部署VMware虚拟化平台。 2.存储阵列在混合云环境下的使用,比如虚拟机部 署、扩容、云备份等。 产品列表 1.混合云存储阵列 2.对象存储OSS
文档版本:20191223 14 混合云存储构建VMware虚拟化平台 存储阵列系统初始化配置 步骤9 此时系统初始化工作已完成,弹出摘要界面,显示了接下来需要执行的操作,按照 完成以后,单击完成即可进入系统的管理界面。说明:系统初始化也可以通过服务助手来进行,SA系列的存储阵列缺省的服务IP地 址为:192.168.70.10/11,...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,访问控制,混合云存储阵列 Hybrid Cloud
CDH迁移升级CDP最佳实践
CDH迁移升级CDP最佳实践
当前 CDH 免费版停止下载,终止服务,针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户,通过安装新的 CDP 集群,将现有数据拷贝至新集群,然后将新集群切换为生产集群,升级过程没有数据丢失风险,停机时间较短,适合大部分互联网客户升级使用。
CDH迁移升级 CDP 最佳实践 业务架构 场景描述 解决的问题 CDH升级至 CDP 当前 CDH免费版停止下载,终止服务,针对需要企业版 服务能力并且 CDH升级过程对业务影响较小的客户,通 要求升级过程无数据丢失风险 过安装新的 CDP集群,将现有数据拷贝至新集群,然后 要求升级宕机时间及短 将新集群切换为生产集群,升级过程没有...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云速搭
基于k8s多集群隔离环境下的devops实现
基于k8s多集群隔离环境下的devops实现
场景描述 DevOps是一组过程、方法与系统 的统称,并通过工具实现自动化部署, 确保部署任务的可重复性、减少部署出 错的可能性。随着微服务、中台架构的 兴起,devops重要性日益显著。 本方案使用两个独立的k8s集群: 用户已有的k8s模拟测试,ack集群模 拟生产环境,保证环境的高度隔离,互 不影响。通过gitlab+Jenkins的黄金组 合,实现容器应用的自动化构建和持续 部署,提高迭代效率。 解决问题 1.微服务应用的CI/CD。 2.测试和生产环境的高度隔离。 3.自动化的测试与部署。 4.现有CI对接ACK。 产品列表 专有网络VPC 容器服务ACK 容器镜像服务ACR 弹性公网IP 负载均衡SLB
文档版本:20220121 9 基于 K8S多集群隔离环境下的 DevOps实现 准备工作 Docker安装完成,执行 sudo service docker start 3.GitLab安装及配置 步骤1 拉取 gitlab镜像。docker pull gitlab/gitlab-ce#gitlab-ce为稳定版本,后面不填写版本则默认 pull最新 latest版本 步骤2 运行容器。通过以下命令,启动容器。docker run-d...
来自: 最佳实践 | 相关产品:专有网络 VPC,弹性公网IP,容器服务 ACK,容器镜像服务 ACR
微服务应用问题定位及故障演练
微服务应用问题定位及故障演练
场景描述 用户微服务架构应用基于阿里云 ACK 部署, 通 过 ARMS 监控发现微服务应用的容错能力是否 健壮, 容器编排配置是否合理, 以及节点故障引 发的问题等, 方案通过 AHAS 故障注入模拟生 产环境产生的故障, 通过 ARMS 及时发现问题、 定位问题, 并结合 ARMS 的告警功能快速发现 并解决问题。  发现调用下游一个服务实例出现异常。  发现业务 Pod 故障, 验证业务的稳定性。  发现调用数据库延迟故障, 验证 Pod 的水 平扩容能力。 解决问题 1. 定位并解决微服务应用的容错能力。 2. 定位并解决微服务应用编排合理性。 3. 发现故障并验证系统故障的告警时效性。 产品列表  应用高可用服务 AHAS  性能测试 PTS  应用实时监控服务 ARMS  容器服务 kubernetes 版  负载均衡 SLB  专有网络 VPC  日志服务 SLS
微服务应用问题定位及故障演练 最佳实践 业务架构图 场景描述 用户微服务架构应用基于阿里云 ACK...kubectl version-o yaml 文档版本:20220331 29 微服务应用问题定位及故障演练 问题定位及故障模拟 步骤4 如果在新建集群的时候没有安装日志组件(可以在组件管理里面查看和安装),详细可 以 参 考 以 下 文 档 进 行 :...
来自: 最佳实践 | 相关产品:容器服务 ACK,日志服务(SLS),性能测试 PTS,应用实时监控服务 ARMS ,应用高可用服务 AHAS,云速搭
超级计算集群实现自然语言处理训练
超级计算集群实现自然语言处理训练
场景描述 本方案适用于自然语言训练场景,使用神龙 GPU云服务器(SCCGN6)+CPFS进行NLP的 训练,采用Bert模型。这里不使用容器,直接 使用裸机进行NLP的Bert训练,使用飞天AI加 速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙GPU云服务器搭建NLP训练环 境 使用SCC的RDMA网络 使用CPFS存储训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) SCC超级计算集群 CPFS共享存储
[root@scc001~]#tarxzvfcudnn-10.0-linux-x64-v7.6.5.32.tgz cuda/include/cudnn.h cuda/NVIDIA_SLA_cuDNN_Support.txt cuda/lib64/libcudnn.so cuda/lib64/libcudnn.so.7 cuda/lib64/libcudnn.so.7.4.2 cuda/lib64/libcudnn_static.a 步骤4 安装文件。[root@scc001~]#cpcuda/include/cudnn.h/usr/local/cuda/include[root@...
来自: 最佳实践 | 相关产品:文件存储NAS,超级计算集群
RAPIDS加速图像搜索
RAPIDS加速图像搜索
场景描述 本方案适用于使用RAPIDS加速平台 +GPU云服务器来对图像搜索任务进行加 速的场景。相比CPU,利用GPU+ RAPIDS在图像搜索场景下可以取得非常 明显的加速效果。 解决问题 1.搭建RAPIDS加速图像搜索环境 2.使用容器服务Kubernetes版部署图 像搜索环境 3.使用NAS存储计算数据 产品列表 容器服务Kubernetes版 GPU云服务器 文件存储NAS
步骤5 安装依赖的 tensorflow和 keras。在此步骤后面,加入两行代码:!pip install tensorflow!pip install keras 29 RAPIDS加速图像搜索 单机部署图搜应用 步骤6 提取图片特征。使用开源框架 Tensorflow和 Keras提取图片特征,其中模型为基于 ImageNet数据 集的 ResNet50(notop)预训练模型。1.设定 Tensorflow参数 ...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
Function Compute构建高弹性大数据采集系统
Function Compute构建高弹性大数据采集系统
当前互联网很多场景都存在需要将大量的数据信息采集起来然后传输到后端的各类系统服务中,对数据进行处理、分析,形成业务闭环。比如游戏行业中的游戏发行、游戏运营,产互行业中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些场景普遍存在数据采集量大、数据传输需要稳定且吞吐量大的特点,给整个数据采集传输系统带来很大的挑战。在这个场景中,有三个关键的环节,数据采集、数据传输、数据处理。该最佳实践主要涉
安装 Fun 步骤1 因为 fun依赖 nodejs和 npm,首先安装 nodejs和 npm。yum-y install nodejs npm git 步骤2 使用 npm方式安装,非常的简单,一行命令搞定:npm install@alicloud/fun-g 如果以上命令较慢,可以指定国内的镜像地址来安装,使用如下命令:npm install@alicloud/fun-g-registry ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),函数计算,消息队列 Kafka 版,云速搭CADT
Openstack迁移DDH
Openstack迁移DDH
场景描述 在线下IDC中,很多用户使用OpenStack构建云环境,本 文介绍如何将线下IDC中基于OpenStack构建的云服务器 迁移到阿里云专有宿主机(DDH)上,从而实现业务平滑 上云的同时,显著降低成本。 解决问题 1.如何将OpenStack中的云服务器迁移 DDH上。 2.如何使用DDH构建云上环境。 产品列表 专有宿主机DDH 对象存储OSS 服务器迁移中心SMC 专有网络VPC
Users/jinghai/labs/labs/img/base-ssh-rocky-ubuntu-18.04-amd64.vdi INFO Nodecontrollercreated.INFO init_xxx_node.sh->00_init_controller_node.sh 文档版本:20200312(发布日期)12 Openstack迁移DDH 部署OpenStack模拟环境 INFO etc_hosts.sh->01_etc_hosts.sh INFO enable_osbash_ssh_keys.sh->02_enable_osbash_...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,专有宿主机
应用高可用服务AHAS
应用高可用服务AHAS是阿里云基于内部高可用架构最佳实践而打造的商业化产品,主要提供多活容灾MSHA、容灾演练CHAOS等能力,帮助用户全面提升业务稳定性。
五个步骤带你完成应用的双活改造.基于MSHA的【同城多活】容灾解决方案介绍与实践.基于MSHA的【异地多活】容灾解决方案介绍与实践.异地多活之企业架构案例.39A_活动与推广.39A_【标题】产品优势.通用icon文字列表.支持丰富的容灾架构,可选择适合自身的容灾架构,且支持平滑的架构演进.支持接入层、服务层、数据层全业务层级...
来自: 云产品
数据湖-在线学习场景数据分析
数据湖-在线学习场景数据分析
场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
如下图:需要安装python、git、nodejs等软件,具体安装步骤参见附件中的samplecode.txt 步骤3 修改nginx配置,打开/etc/nginx/nginx.conf,改为如下内容,参见附件中的 sample-nginx.conf 文档版本:20200331 34数据湖-在线学习场景数据分析 应用场景 步骤4 程序启动以后测试页面,在浏览器中打开 http://公网地址/app1/...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce
Node.js性能平台
Node.js 性能平台(Node.js Performance Platform)是阿里云面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。凭借对 Node.js 内核深入的理解,我们提供完善的工具链和服务,协助客户主动、快速发现和定位线上问题。
Node.js 性能平台.Node.js 性能平台(Node.js Performance Platform)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。凭借对 Node.js 内核深入的理解,我们提供完善的工具链和服务,协助客户主动、快速发现和定位线上问题.14A_首页banner.谢赟辉,靖鑫,也树.14A_【标题】产品...
来自: 云产品
< 1 2 3 >
共有3页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用