弹性计算双周刊 第23期

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例

【最新动态】
3月20日阿里云在2019 NVIDIA GPU技术大会上发布了国内首个公共云上的轻量级GPU异构计算产品VGN5i实例
VGN5i实例不仅打破了传统直通模式的局限,还可以让客户以更低成本、更高弹性开展业务!以云游戏为例,企业通常仅需要一颗物理GPU几分之一的计算能力即可流畅完成图形或视觉计算;人工智能领域也存在类似问题,深度学习推理场景对GPU的计算资源消耗可能仅仅是训练阶段的数十分之一,甚至更少。对于这类应用场景而言,轻量级计算异构产品可以提升系统灵活性,并大幅降低成本。而阿里云本次首家提供云上轻量级GPU实例,意味着用户可以用更细粒度的计算资源开启业务。
该产品基于NVIDIA Tesla P4 GPU,支持多种规格,企业可以按需选择实例规格或者在云市场选择NVIDIA Quadro虚拟工作站,适用于云游戏、AR/VR以及图形处理等随需应变的GPU计算场景。
GPU_

3月21日,阿里云发布业内首个公共云异构超算集群SCC-GN6
基于弹性裸金属服务器神龙X-Dragon的SCC-GN6,集群性能接近线性增长,将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求。人工智能特别是深度学习,对算力的要求永无止境。但如果只是堆砌芯片,没有低延时网络、高速读写能力,大规模集群无法发挥出最大的计算性能,性能损耗通常在50%左右。且算力资源并不丰富,有研究显示,到2030年中国研究人员每人平均只能拥有1-2个GPU,大多数研究将受到计算能力的严重限制。SCC-GN6是首个基于X-Dragon架构的超算异构产品,神龙云服务器与阿里云ECS、GPU云服务器等一起,最多可达512个节点,计算性能依旧接近线性增长,提供堪比超算中心的并行计算资源。
SCC_GN6_

弹性计算推出新付费模式
预留实例券
预留实例券是一种抵扣券,可以提供按量实例账单抵扣及容量预留。相比预付费实例,预留实例券与按量付费实例这种组合模式可以兼顾灵活性和成本同时比标准月价格更优惠。目前ReservedInstance已全网开放邀测。

Ali-Perseus:擎天统一深度学习分布式通信框架,增加资源性能,提升阿里云异构计算产品的性价比

阿里云推出擎天统一深度学习分布式通信框架,业界首次统一支持Tensorflow、Caffe、MXNET、PyTorch 4个主流的深度学习框架的分布式性能加速,性能比优化的通信框架horovod提升2~5倍不等。统一深度学习分布式通信框架的实现,将各种深度学习框架的分布式优化与框架自身完全解除了耦合,可以在一个统一的框架之下进行阿里云基础设施的深度优化。
持续基于阿里云VPC网络进行深度优化,直接让Tensorflow,MXNet,Pytorch和Caffe全面提升了在阿里云上的多机多卡扩展性,大大提升了阿里云异构计算优化的效率,也减轻了性能优化、开发和维护的工作量。客户A已经在使用Ali-Perseus+Tensorflow+Bert在生产环境中进行预训练,性能提升为horovod的2~5倍。客户B在评测Ali-Perseus+MXNet,目前反馈,与客户的自有MXNet框架整合顺利,检测模型的4机32卡性能提升10%以上,性能上限接近线形加速比,客户仍在进一步测试中。客户可以完全保留之前的开源训练框架不变的同时,享受到Ali-Perseus 通信框架的性能优势,对大部分客户来说,是比较容易接受的一种方案。对于客户购买的IaaS资源来说,会直接增加这些资源的性能,提升阿里云异构计算产品的性价比。

弹性高性能计算E-HPC自动扩容新模式:按多种备选实例类型进行扩容
E-HPC的自动扩容功能增加了一种新模式:每个调度器队列支持配置实例列表,自动扩容时如果一种实例库存不足,将根据当前队列的实例列表选择其他实例进行扩容,最大限度的确保用户自动扩容能够成功,保障用户作业业务连续性。大客户资源报备供应查询大客户在固定时间内的资源需求阿里云无法满足时,CBM 会在后台帮客户提交一个资源报备。改功能发布前,若资源状态有更新的时,需要CBM通知客户去购买。在该功能发布后,客户可以直接在buy页面查看供应情况,对于已交付可以直接购买完成交易。

AUTOSCALING新功能发布
伸缩规则增加了minAdjustmentMagnitude参数,解决simpleScalingRule采用Percentage方式缩容时,存在无法将伸缩组全部实例释放完的情况。支持用户设置步进伸缩规则,通过不同的区间定义不同的扩容容策略。修复通过启动模板创建伸缩组全镜像未妥善处理,导致的多创建数据盘的问题。

ECI新功能发布
ECI 监控功能发布,监控是 IaaS 基础设施的核心能力,ECI 用户通过监控可以及时感知系统状态,并辅助弹性伸缩和调度系统的决策。ECI 当前已经支持容器组及容器级别的的 cpu , memory , network , load 数据的监控,同时为了兼顾Kubernetes用户和其他用户的使用习惯,在数据查询和展示上即支持云监控查询,也支持通过 OpenAPI 实时监控数据和汇聚查询。
新开放大规格实例,容器已经越来越广泛的应用在基因计算、视频编码转码、机器学习等场景,这些场景对于计算资源有强烈的大规格(大于4vCPU)诉求,ECI 已经开放 8vCPU 及以上 vCPU规格,最大支持 64 vCPU规格,满足上述场景的诉求。

【产品资讯】
阿里云为吉利汽车建立了目前中国最大公共云HPC仿真平台
使用神龙SCC规格族为客户创建了可伸缩的近20000物理核规模的仿真集群。SCC规格族使用了RoCE RDMA网络提供了低延迟,高带宽的内部互联,为多机多核并行CAE应用扩展提供近乎线性加速比;使用阿里云超算SCC平台后,通过优化多核调用效率和内存带宽配比,较之前的生产环境相比,显著提升了仿真计算效率,提升license使用效率,汽车碰撞仿真应用LS-Dyna提升40%,汽车流体仿真应用StarCCM+提升近20%。吉利汽车仿真整体上云对汽车主机厂搬云提供了强劲的案例杠杆。

阿里云北京峰会人工智能专场,异构计算集群加速技术解读

介绍阿里云异构计算的弹性GPU计算服务,在AI算力需求爆发的时代,提供超大规模GPU集群算力,在高性能,高可靠性以及易用性几个关键点上为阿里云的AI客户提供GPU计算服务。着重介绍了几个新产品和服务,包括轻量级GPU实例用来满足众多轻量级的应用场景例如云游戏, AR VR, AI推理以及AI教学场景;以及Ali-Perseus 阿里云AI加速引擎--业界第一个统一四种主流框架Tensorflow,Pytorch,MXNet和Caffe的分布式训练的云上加速引擎,在VPC网络环境下,为客户带来显著的加速,Bert在2机16卡下,加速4倍左右,Insightface在4机32卡下加速超过2倍,显著的加速了客户和合作伙伴在人工智能领域的业务创新速度。

阿里云北京峰会分论坛深度解析弹性计算技术和产品
基础设施分论坛上,从安全、稳定、弹性、提升性价比等方面深入解析了弹性计算ECS。在PAAS层产品陆续登台的今天,ECS更加需要为All-in-Cloud时代勤练内功、夯实计算基础。阿里云智能北京峰会,异构计算发布了多款产品,产品能力的提升,获得了客户的广泛关注。异构计算产品覆盖的应用场景,从单一的人工智能,开始向视频,VR/AR,游戏,工业设计等领域扩展。

【最佳实践】
你想知道的ECS最新功能都在这儿:
https://help.aliyun.com/document_detail/110530.html
本地自建数据库迁移到ECS & ECS实例自建数据库间迁移:
https://help.aliyun.com/document_detail/108121.html
https://help.aliyun.com/document_detail/108218.html
Packer构建镜像 & Packer的DevOps配置:
https://help.aliyun.com/document_detail/111070.html
https://help.aliyun.com/document_detail/111095.html

阿里云异构计算打破传统直通模式局限,更低成本、更高弹性开展业务,带你了解国内首个公共云上的轻量级GPU,10日下午3点直播发布,https://yq.aliyun.com/live/938
vGN5i_410

相关实践学习
利用大模型大规模分发技术,实现AIGC在线应用秒级弹性
通过ECI的数据缓存技术实现大模型的快速分发,将模型与应用解耦,敏捷部署,实现秒级在线弹性启动。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
弹性计算 监控 异构计算
弹性计算双周刊 第 25 期
弹性计算双周刊 第25期
5889 0
|
弹性计算 安全 调度
弹性计算双周刊 第24期
第24届ACM编程语言和操作系统(ASPLOS'19),于2019年4月13日至17日,在普罗维登斯召开,阿里云高级技术专家郑晓代表团队在会上发表了技术报告。论文主题为《Fast and Scalable VMM Live Upgrade in Large Cloud Infrastructure》,作者张献涛,郑晓,沈益斌等人。
3547 0
|
弹性计算 监控 异构计算
弹性计算双周刊 第22期
弹性伸缩服务在简单伸缩规则的基础上,通过与云监控深度合作,上线了目标追踪伸缩规则。相比于简单伸缩规则定义较模糊、调整粒度固定、调整过程缺少控制等不足之处,目标追踪伸缩规则重新定义了伸缩组动态调整的使用方式,用户只需要指定关心的监控指标目标值,弹性伸缩组基于对监控数据的感知能力自动计算需要调整的扩缩容实例数,并使用尽量少的调整过程趋近监控指标目标值,让用户在使用弹性伸缩过程中,不再操作“手动空调”,获得“自动空调”的轻松体验。
2281 0
|
存储 弹性计算 测试技术
弹性计算双周刊 第20期
12月25日,斯坦福大学发布的DawnBench竞赛榜单中,ECS团队基于阿里云ecs.gn5i-c8g1.2xlarge实例的推理任务以每张图片4.218ms的性能,0.00000154美金的推理成本双双登顶DawnBench竞赛推理性能及推理成本榜单第一名。
5280 0
弹性计算双周刊 第20期
|
弹性计算 Cloud Native PouchContainer
弹性计算双周刊 第18 期
首届云原生计算国际会议(KubeCon + CloudNativeCon,China,2018)在上海举办,弹性计算研究员伯瑜介绍了基于虚拟化、容器化编排技术的云计算操作系统PouchContainer。
4323 0
|
弹性计算 监控 异构计算
弹性计算双周刊 第17期
突发性能实例(Burstable instance,简称为t5实例),是一种能应对突发 CPU 性能需求的实例。每台 t5 实例都有一个基准 CPU 计算性能,并会根据实例规格以指定速度持续获取 CPU 积分。
2752 0
|
弹性计算 安全 API
弹性计算双周刊 第 16 期
10月24日至26日,KVM Forum在英国爱丁堡国际会议中心举办,会议主题涉及热迁移、嵌套虚拟化、设备直通、轻量虚拟化、安全及性能优化等方面,参会公司聚集了阿里云、腾讯、华为、Google、Microsoft等云厂商以及Red Hat、Intel、IBM、AMD等系统和硬件厂商。
3580 0
|
弹性计算 关系型数据库 容器
弹性计算双周刊 第15期
阿里云弹性计算团队的服务能力正在从中小企业客户到大型企业全计算场景覆盖的方向演进,不但覆盖通用CPU场景,也有GPU,FPGA等等异构场景,另外弹性计算团队也在存储,网络等方面不断扩展能力边界。
2842 0
|
机器学习/深度学习 存储 弹性计算
弹性计算双周刊 第14期
9月19日至9月22日,弹性计算始终坚持普世计算的使命,将飞天经过双十一大规模实战检验的技术红利开放给阿里云的用户和生态伙伴,弹性计算(ECS)团队在本届大会将通过7个分论坛在弹性,计算,存储,虚拟化等方面和大家探讨和交流如何实现技术创新,一起构建更好的弹性计算生态,提供更加稳定、安全、易用的云服务。
3789 0
弹性计算双周刊 第14期
|
弹性计算 应用服务中间件 数据库
弹性计算双周刊 第 13 期
2018 KVM Forum将于10月份在爱丁堡举行,阿里云有3个热迁移相关的议题被接受。重庆云栖大会上,阿里云ECS产品深度解析,弹性裸金属服务器(神龙)助力企业核心业务上云。
3076 0

相关产品

  • 云服务器 ECS
  • 轻量应用服务器
  • 弹性容器实例