MaxCompute存储力持续升级,每年节省不止一个亿

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

数据是开启全新洞察和机器智能创新的基础,拥有高性能、稳定、可扩展性强的存储能力和充沛的计算力,才能全面释放数据价值。

阿里巴巴大数据计算平台MaxCompute,作为阿里巴巴统一的计算平台,支持了整个阿里巴巴集团内部几乎99%的数据存储,数据规模已至EB级。同时,MaxCompute也在为数以万计的云上用户提供快速、完全托管的 GB到EB 级数据仓库解决方案,解决用户海量数据存储与计算问题。所以说,如何提高数据存储效率、稳定性、可用性,是MaxCompute存储团队不断努力的方向。

从MaxCompute整体存储架构来看,存储层处于MaxCompute Tasks和底层盘古分布式文件系统之间,提供统一的逻辑数据模型给各种各样的计算任务(包括SQL,XLib,Graph,PAI等),以保证数据在不同类型的Task之间可以互联互通,同时存储引擎提供逻辑数据模型到DFS的映射、数据编码压缩和文件存储格式、冷热数据分离与文件合并归档等方面的服务。

在本次存储升级中,MaxCompute利用新一代数据压缩算法提供更高压缩率,并且在不同数据集中都有极佳性能,持续提升MaxCompute存储和计算能力,带来存储费用的下降和计算性能的提升。

新压缩算法在10TB TPC-DS测试集下,压缩节省8.38%, 计算节省4.35%。

image

从资源成本角度看,新压缩算法比原有算法快5.3%。

image

MaxCompute作为阿里巴巴的“水电煤”,数据规模巨大,数据的压缩率和压缩速度对整个平台的性能和成本都有着巨大的意义。MaxCompute存储团队采用新一代的压缩算法作为底层压缩的替代方案,为大规模数据存储和数据计算带来了巨大收益。

整体存储变化趋势
image

存储账单变化
image

经实践,在业务增长量不变的情况下,升级新一代数据压缩算法后,在阿里巴巴集团内部每年可节省存储费用可一个亿。

对于业务跑在MaxCompute上的公共云客户而言,本次存储升级无疑是阿里巴巴技术红利的又一次释放,为企业和开发者们提供具备更高存储效率、稳定性以及可用性的存储服务,降低存储成本的同时进一步提升计算性能。

一次升级,集团内外,每年节省不止一个亿。

接下来,MaxCompute会持续在存储加密、冷热数据分离与文件合并归档、文件格式支持AliOrc以及存储和计算的结合方面持续发力,用先进的技术不断打磨产品,为云上企业释放更多技术红利,帮助企业和开发者抓住更多市场机遇。

更多有关MaxCompute产品和技术问题,欢迎加入“MaxCompute开发者钉钉群”与大数据开发者一起交流。

image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 分布式计算 大数据
大数据计算中,使用OSS作为外部存储
大数据计算中,使用OSS作为外部存储
45 1
|
7月前
|
存储 NoSQL 分布式数据库
Hbase+ES和MongoDB存储大数据的选用
Hbase+ES和MongoDB存储大数据的选用
232 0
|
3月前
|
存储 关系型数据库 MySQL
Mysql 存储大数据量问题
Mysql 存储大数据量问题
92 1
|
4月前
|
存储 分布式计算 大数据
开通大数据计算MaxCompute就能存储外表了吗?
开通大数据计算MaxCompute就能存储外表了吗?
28 0
|
5月前
|
存储 Cloud Native 大数据
在云原生时代,构建高效的大数据存储与分析平台
在云原生时代,构建高效的大数据存储与分析平台
144 0
|
5月前
|
存储 人工智能 分布式计算
【云栖2023】张治国:MaxCompute架构升级及开放性解读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会
60095 9
|
8月前
|
存储 算法 大数据
倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能
倚天性能优化--基于倚天优化后的zstd在大数据场景应用:降低存储成本+提升重IO场景性能
|
存储 分布式计算 安全
大数据存储与管理(一)|学习笔记
快速学习大数据存储与管理(一)
727 0
大数据存储与管理(一)|学习笔记
|
10月前
|
存储 人工智能 达摩院
带你读《云存储应用白皮书》之29:2. 物联网大数据存储解决方案
带你读《云存储应用白皮书》之29:2. 物联网大数据存储解决方案
271 1
|
11月前
|
存储 数据采集 缓存
大数据数据采集的数据采集(收集/聚合)的Flume之基本组件的Channel:临时存储数据的管道
在Flume中,Channel是数据采集和传输过程中的一个重要组件。它负责存储从Source获取的数据,并将其转发给Sink进行处理和存储。
107 0

相关产品

  • 云原生大数据计算服务 MaxCompute