RAPIDS加速机器学习
RAPIDS加速机器学习
场景描述 本方案适用于使用RAPIDS加速库+GPU 云服务器来对机器学习任务或者数据科学 任务进行加速的场景。相比CPU,利用 GPU+RAPIDS在某些场景下可以取得非常 明显的加速效果。 解决问题 1.搭建RAPIDS加速机器学习环境 2.使用容器服务Kubernetes版部署 RAPIDS环境 3.使用NAS存储计算数据 产品列表 容器服务Kubernetes版 GPU云服务器 文件存储NAS
jupyter 31070/TCP Endpoints:172.20.1.143:8888 Port:dask 8787/TCP TargetPort:8787/TCP NodePort:dask 32747/TCP Endpoints:172.20.1.143:8787 Port:dask1 8786/TCP TargetPort:8786/TCP NodePort:dask1 30401/TCP Endpoints:172.20.1.143:8786 Session Affinity:None External Traffic Policy:Cluster Events:步骤8 ...
来自: 最佳实践 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
基于ECI+FaaS构建游戏战斗结算服
基于ECI+FaaS构建游戏战斗结算服
在游戏行业的很多SLG游戏作品中,为了防止客户端作弊,在每局战斗之后,在客户端预判玩家胜利的情况下,需要服务端来进行战斗数据的结算,从而确定玩家是不是真正的胜利。战斗结算是强CPU密集型,结算系统每日需要大量的计算力,尤其是开服或者活动期间忽然涌入的大量玩家,导致需要的计算量瞬间几倍增长,同时需要结算系统保持稳定的延时来保证玩家的用户体验。 1. ECI支持500台实例30S弹出,快速解决业务模块扩容压力。FaaS毫秒级伸缩扩容,化解算力瓶颈,平滑解决暴增调用请求。 2. 降低成本:ECI每天弹性运行8小时,与6代同规格包月相比节省成本40%+,FaaS按需付费,即开即用,节省预留资源消耗。 3. 免运维:FaaS和ECI都是全托管免运维的服务,客户专注业务开发即可。 4. 模块公共化:减轻游戏逻辑服的压力,结算需求复用到类似需求的游戏。
文档版本:20201127 45 基于ECI+FaaS构建游戏战斗结算服 游戏架构搭建篇 步骤2 在容器服务控制台进入应用目录,选择 ack-virtual-node安装虚拟节点。(在 ACK集 群上部署虚拟节点,让 ECI实例运行在虚拟节点上。说明:1.通常而言,如果单个 ACK集群内 eci pod数量小于 3000,我们推荐部署单个 vk 节点。如果希望在 vk上部署...
来自: 最佳实践 | 相关产品:容器服务 ACK,函数计算,弹性容器实例 ECI
EHPC分子动力学最佳实践
EHPC分子动力学最佳实践
本文档以一个简单的分子动力学算例,介绍阿里云EHPC分子动力学最佳实践。
注意:由于安装使用 GPU进行运算的 CP2K环境十分繁琐和复杂,本文特提供了一 个已经安装配置好的镜像供读者测试使用,如果需要,请联系作者获取。1.1.开通产品及服务 步骤1 登录阿里云官网(www.aliyun.com),单击右上角的控制台。步骤2 单击左上角的图标。步骤3 在弹出的页面中,输入产品名称,如 ECS,单击对应的链接。...
来自: 最佳实践 | 相关产品:云服务器ECS,对象存储 OSS,文件存储NAS,弹性高性能计算E-HPC,云速搭CADT
应用高可用服务AHAS
应用高可用服务AHAS是阿里云基于内部高可用架构最佳实践而打造的商业化产品,主要提供多活容灾MSHA、容灾演练CHAOS等能力,帮助用户全面提升业务稳定性。
自动识别Redis,Mysql,ZooKeeper等常用的 三方组件 和ECS、RDS、Redis、CDN、DNS、MQ、SLB、EIP、NAT、DDOS、WAF等云资源,同时可识别容器服务、Kubernetes环境中的node、Pod、service、container等资源,将其 拓扑关系 进行可视化展示.根据通用风险规则,定期进行基于架构拓扑中节点的 风险巡检,并将巡检结果可视化直观...
来自: 云产品
搭建高性能ACK集群
搭建高性能ACK集群
场景描述 容器的网络协议栈实现方式,导致容器之间的网 络性能,相比服务器之间直接通信方式,会有一 定程度的下降。阿里云托管版的K8S容器服务, 支持自研的Terway网络插件,该插件可以有效 减少因容器而引入的网络性能下降,可以基本达 到服务器之间直接通信的网络性能。本最佳实践 主要是一个性能测试方面的实践,指导客户进行 POC测试等。 解决问题 1.POD之间网络性能提升。 2.性能测试方法 产品列表 阿里云托管K8S ACK
类型 Flannel Terway-IP Terway-ENI pod->pod 130 K 135 K 249 K node->node 260 K 158 K 218 K 结论:Terway-ENI模式的 pod之间的 PPS性能明显最高,比 node之间的性能还要好(因为 pod上的网络栈更干净)。Flannel和 Terway-IP模式,pod之间的 PPS相差不大,是因为阿里云上的 flannel是和云平台适配优化过的。Flannel-VPC...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,容器服务 ACK,云速搭
云端影视渲染
云端影视渲染
场景描述 本文介绍如何搭建一个完整的混合云渲染服务架构,本地与云端的网络以SSL-VPN方式进行互联。 解决问题 1、使用SSL-VPN构建本地网络与云上VPC环境的安全互联。 2、使用批量计算服务管理渲染计算集群,集群计算节点自动加入Deadline资源池。 3、使用Deadline做渲染任务管理。 4、批量计算集群计算节点根据Deadline渲染任务自动扩容和收缩,资源管理自动化。 产品列表 1、云服务器ECS 2、GPU云服务器GPU 3、批量计算BCS 4、专有网络VPC 5、弹性公网IP 6、文件存储NAS
文档版本:20200220 55 云端影视渲染 创建渲染节点镜像 步骤2 执行 blender安装程序 blender-2.79b-windows64.msi,按默认设置安装。文档版本:20200220 56 云端影视渲染 创建渲染节点镜像 文档版本:20200220 57 云端影视渲染 创建渲染节点镜像 5.5.为镜像制作实例安装 Deadline Client 步骤1 运行安装程序。文档版本:...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,文件存储NAS,VPN网关,批量计算
基于弹性计算的AI推理
基于弹性计算的AI推理
场景描述 本方案适用于使用GPU进行AI在线推理的场 景。在推理之前,模型已经训练完成。例如,刷脸 支付中,我们在刷脸的时候,就是推理的一个过 程。再比如图像分类,目标检测,语音识别,语 义分析等返回结果的过程。 解决问题 使用GPU云服务器搭建推理环境 使用容器服务Kubernetes版构建推理 环境 使用NAS存储模型数据 使用飞天AI加速推理工具加速推理 产品列表 GPU云服务器 容器服务Kubernetes版 NAS共享存储
步骤7 查看基础组件是否安装成功#kubectl get all-n arena-system 步骤8 检查 gpu能力已经添加成功#arena top node 47 企业上云实践 基于弹性计算的 AI推理|部署飞天 AI加速推理工具的 demo 这里看到三个worker节点GPU一列都是1,每个worker节点配置了1个GPU。4.4.2.使用存储卷 步骤1 前面已经部署过了,这里用 nas这个存储...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
超级计算集群实现自然语言处理训练
超级计算集群实现自然语言处理训练
场景描述 本方案适用于自然语言训练场景,使用神龙 GPU云服务器(SCCGN6)+CPFS进行NLP的 训练,采用Bert模型。这里不使用容器,直接 使用裸机进行NLP的Bert训练,使用飞天AI加 速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙GPU云服务器搭建NLP训练环 境 使用SCC的RDMA网络 使用CPFS存储训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) SCC超级计算集群 CPFS共享存储
成功后,最后可以看到如下输出:19企业上云实践 基于超级计算集群的自然语言处理AI训练  执行mmlscluster命令,确认node列表中已包含目标ECS实例。 将目标ECS实例加入客户端管理节点后,文件系统会自动挂载在默认路径/cpfs/上。以下命 令在要挂载CPFS的ECS实例上运行。 可以使用mount-bind命令,通过自定义路径访问...
来自: 最佳实践 | 相关产品:文件存储NAS,超级计算集群
ECS+EAIS弹性伸缩最佳实践
ECS+EAIS弹性伸缩最佳实践
弹性加速计算实例EAIS通常与ECS配合使用,在大规模的弹性推理场景中,需要实现ECS弹性扩容的过程中自动创建弹性EAIS实例,并绑定到ECS上。当前弹性伸缩组ESS暂不满足此特殊场景的弹性伸缩需求。 本方案将通过结合CADT API、函数计算和Serverless工作流,演示如何快速且以可视化的方式进行此场景的弹性伸缩。
文档版本:20220810 37 ECS+EAIS弹性伸缩 模拟定时扩缩容任务 {"mode":"create","period":50,"template_id":"MVXXXXXXXXXXSJRA","instances":[{"node_type":"vpc","node_name":"vpc","id":"vpc-ufxxxxxxxxxxl65xzho4f"},{"node_type":"vswitch","node_name":"vswitch","id":"vsw-uf6xxxxxxxxxx9p3ym8ob"},{"node_type":...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,负载均衡 SLB,函数计算,Serverless 工作流,云速搭CADT,弹性加速计算实例
故障演练Chaos
故障演练(Chaos)是阿里云打造的云原生混沌工程平台,场景丰富、简单易用、安全可控、高效可靠,提供一站式架构分析、故障巡检等功能,帮助系统平稳上云。
演练场景从IaaS到SaaS层全覆盖,包含云服务器ECS、云数据库RDS等云设施场景库,Pod、Node等Kubernetes场景库,CPU、内存等操作系统场景库,调用延迟,异常,参数异常等进程内场景库.演练经验提供了配置好的演练模板,用户只需要填写机器等必要参数,就可以发起演练;支持将已有演练流程转换为演练经验,降低配置成本.一站式...
来自: 云产品
混合云使用Ali-Perseus
混合云使用Ali-Perseus
场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS
[root@master001 arena-installer]#arena top node-d NAME:master001 IPADDRESS:192.168.20.12 ROLE:master Total GPUs In Node master001:0 Allocated GPUs In Node master001:0(0%)-NAME:worker001 IPADDRESS:192.168.10.3 ROLE:worker NAMESPACE NAME GPU REQUESTS default perseus-model-server-66777fd589-zpk55 1 ...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,云企业网
Function Compute构建高弹性大数据采集系统
Function Compute构建高弹性大数据采集系统
当前互联网很多场景都存在需要将大量的数据信息采集起来然后传输到后端的各类系统服务中,对数据进行处理、分析,形成业务闭环。比如游戏行业中的游戏发行、游戏运营,产互行业中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些场景普遍存在数据采集量大、数据传输需要稳定且吞吐量大的特点,给整个数据采集传输系统带来很大的挑战。在这个场景中,有三个关键的环节,数据采集、数据传输、数据处理。该最佳实践主要涉
安装 Fun 步骤1 因为 fun依赖 nodejs和 npm,首先安装 nodejs和 npm。yum-y install nodejs npm git 步骤2 使用 npm方式安装,非常的简单,一行命令搞定:npm install@alicloud/fun-g 如果以上命令较慢,可以指定国内的镜像地址来安装,使用如下命令:npm install@alicloud/fun-g-registry ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),函数计算,消息队列 Kafka 版,云速搭CADT
混合云存储构建VMware虚拟化平台
混合云存储构建VMware虚拟化平台
场景描述 本文以混合云存储阵列SA2600系统为例,介绍如 何在混合云存储环境下部署VMware虚拟化平台, 以及混合云环境下虚拟机的部署、扩容、云备份等功 能演示。 解决问题 1.如何使用混合云存储部署VMware虚拟化平台。 2.存储阵列在混合云环境下的使用,比如虚拟机部 署、扩容、云备份等。 产品列表 1.混合云存储阵列 2.对象存储OSS
3.1.vSphere安装 使用vShpere引导光盘或者U盘启动服务器后,根据提示完成vSphere的安装。本 文中环境使用vSphere6.5。3.2.vCenter部署 本节主要介绍如何部署VCenter。步骤1 浏览器中打开vSphere控制台,部署一台虚拟机,操作系统要求WindowsServer2016,右键单击主机,选择创建/注册虚拟机。步骤2 选择创建新虚拟机,单击...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,访问控制,混合云存储阵列 Hybrid Cloud
基于k8s多集群隔离环境下的devops实现
基于k8s多集群隔离环境下的devops实现
场景描述 DevOps是一组过程、方法与系统 的统称,并通过工具实现自动化部署, 确保部署任务的可重复性、减少部署出 错的可能性。随着微服务、中台架构的 兴起,devops重要性日益显著。 本方案使用两个独立的k8s集群: 用户已有的k8s模拟测试,ack集群模 拟生产环境,保证环境的高度隔离,互 不影响。通过gitlab+Jenkins的黄金组 合,实现容器应用的自动化构建和持续 部署,提高迭代效率。 解决问题 1.微服务应用的CI/CD。 2.测试和生产环境的高度隔离。 3.自动化的测试与部署。 4.现有CI对接ACK。 产品列表 专有网络VPC 容器服务ACK 容器镜像服务ACR 弹性公网IP 负载均衡SLB
持续集成及持续部署 5.1.Jenkins pipeline配置 5.1.1.Jenkins插件安装 在本方案中,需要在通过 code push事件中触发 Jenkins进行编译打包,通过邮件审 批之后,将应用部署到 Kubernetes集群中,除了前文安装 Jenkins时默认安装的插件 外,还需要安装 GitLab、Gitlab Hook、Kubernetes CLI,Email Extension等插件。如何安装...
来自: 最佳实践 | 相关产品:专有网络 VPC,弹性公网IP,容器服务 ACK,容器镜像服务 ACR
微服务应用问题定位及故障演练
微服务应用问题定位及故障演练
场景描述 用户微服务架构应用基于阿里云 ACK 部署, 通 过 ARMS 监控发现微服务应用的容错能力是否 健壮, 容器编排配置是否合理, 以及节点故障引 发的问题等, 方案通过 AHAS 故障注入模拟生 产环境产生的故障, 通过 ARMS 及时发现问题、 定位问题, 并结合 ARMS 的告警功能快速发现 并解决问题。  发现调用下游一个服务实例出现异常。  发现业务 Pod 故障, 验证业务的稳定性。  发现调用数据库延迟故障, 验证 Pod 的水 平扩容能力。 解决问题 1. 定位并解决微服务应用的容错能力。 2. 定位并解决微服务应用编排合理性。 3. 发现故障并验证系统故障的告警时效性。 产品列表  应用高可用服务 AHAS  性能测试 PTS  应用实时监控服务 ARMS  容器服务 kubernetes 版  负载均衡 SLB  专有网络 VPC  日志服务 SLS
微服务应用问题定位及故障演练 最佳实践 业务架构图 场景描述 用户微服务架构应用基于阿里云 ACK...kubectl version-o yaml 文档版本:20220331 29 微服务应用问题定位及故障演练 问题定位及故障模拟 步骤4 如果在新建集群的时候没有安装日志组件(可以在组件管理里面查看和安装),详细可 以 参 考 以 下 文 档 进 行 :...
来自: 最佳实践 | 相关产品:容器服务 ACK,日志服务(SLS),性能测试 PTS,应用实时监控服务 ARMS ,应用高可用服务 AHAS,云速搭
Openstack迁移DDH
Openstack迁移DDH
场景描述 在线下IDC中,很多用户使用OpenStack构建云环境,本 文介绍如何将线下IDC中基于OpenStack构建的云服务器 迁移到阿里云专有宿主机(DDH)上,从而实现业务平滑 上云的同时,显著降低成本。 解决问题 1.如何将OpenStack中的云服务器迁移 DDH上。 2.如何使用DDH构建云上环境。 产品列表 专有宿主机DDH 对象存储OSS 服务器迁移中心SMC 专有网络VPC
Users/jinghai/labs/labs/img/base-ssh-rocky-ubuntu-18.04-amd64.vdi INFO Nodecontrollercreated.INFO init_xxx_node.sh->00_init_controller_node.sh 文档版本:20200312(发布日期)12 Openstack迁移DDH 部署OpenStack模拟环境 INFO etc_hosts.sh->01_etc_hosts.sh INFO enable_osbash_ssh_keys.sh->02_enable_osbash_...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,专有宿主机
RAPIDS加速图像搜索
RAPIDS加速图像搜索
场景描述 本方案适用于使用RAPIDS加速平台 +GPU云服务器来对图像搜索任务进行加 速的场景。相比CPU,利用GPU+ RAPIDS在图像搜索场景下可以取得非常 明显的加速效果。 解决问题 1.搭建RAPIDS加速图像搜索环境 2.使用容器服务Kubernetes版部署图 像搜索环境 3.使用NAS存储计算数据 产品列表 容器服务Kubernetes版 GPU云服务器 文件存储NAS
jupyter 30864/TCP Endpoints:172.20.1.153:8888 Port:dask 8787/TCP TargetPort:8787/TCP NodePort:dask 32049/TCP Endpoints:172.20.1.153:8787 Port:dask1 8786/TCP TargetPort:8786/TCP NodePort:dask1 31121/TCP Endpoints:172.20.1.153:8786 Session Affinity:None External Traffic Policy:Cluster Events:步骤7 ...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
数据湖-在线学习场景数据分析
数据湖-在线学习场景数据分析
场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
如下图:需要安装python、git、nodejs等软件,具体安装步骤参见附件中的samplecode.txt 步骤3 修改nginx配置,打开/etc/nginx/nginx.conf,改为如下内容,参见附件中的 sample-nginx.conf 文档版本:20200331 34数据湖-在线学习场景数据分析 应用场景 步骤4 程序启动以后测试页面,在浏览器中打开 http://公网地址/app1/...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce
Node.js性能平台
Node.js 性能平台(Node.js Performance Platform)是阿里云面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。凭借对 Node.js 内核深入的理解,我们提供完善的工具链和服务,协助客户主动、快速发现和定位线上问题。
Node.js 性能平台.Node.js 性能平台(Node.js Performance Platform)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。凭借对 Node.js 内核深入的理解,我们提供完善的工具链和服务,协助客户主动、快速发现和定位线上问题.14A_首页banner.谢赟辉,靖鑫,也树.14A_【标题】产品...
来自: 云产品
< 1 2 3 >
共有3页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用