最简单的大数据性能估算方法

简介:

sjjt-212

大数据的性能是个永恒的话题。不过,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。

这个办法我在以往的文章中也提到过,不过没有以这个题目明确地点出来。


其实很简单,就是算一下这些数据从硬盘上取出来用的时间。除了个别按索引取数的运算外,绝大多数运算都会涉及对数据的整体遍历,比如分组汇总统计、按条件查询(非索引字段);那么,这些运算耗用的时间,无论如何不可能小于硬盘访问的时间,我们就能算出一个理论上的极限值。

比如,有人宣称实现10T数据的OLAP汇总只需要3秒。那么这意味着什么呢?

常见的15000转硬盘,在操作系统下的访问速度也就不到200M/秒,SSD会快一些,但也没数量级的提升,大概3秒读1G的样子。这样,从单块硬盘中读出10T数据就需要30000秒以上,如果想在3秒内完成汇总,那就需要1万块硬盘!作为用户,你是否做了这个准备呢?

当然,硬盘及硬盘在不同环境下的速度不尽相同,可能更快或更慢,但总之都可以用这个简单的办法去估算。不知道自家硬盘的速度?那弄个大文件读一下试试就知道了,拿到实验数据再去计算会更准确。要强调的是,不能简单地看硬盘厂商标称的性能指标,在文件系统下,那个理想值常常连一半都达不到,还是实测的最可靠。

这样,我们就能知道某个大数据问题最理想的情况能够达到什么性能,比这个指标还好的期望,在用于估算指标的硬件条件下都是不可能实现的,没有必要再去琢磨软件产品和技术方案了。


这种估算也指明了一个优化方向,就是减少存储量和访问量。

减少存储量当然不能减少数据本身,用于计算的数据一条也不能少,否则就出现错误结果。减少存储量要靠数据压缩的手段。10T的原始数据,如果有好的压缩手段,实际在硬盘上存储下来可能只有1T甚至更少,这时候3秒汇总这些数据就不再需要1万块硬盘了。

在存储量不能再减少的情况下,还有些软件手段来减少访问量,常用的方法就是列存。一个数据表有100列占了10T,如果只访问三列进行汇总,那大概只需要访问300G数据,这时候3秒完成汇总当然也不需要1万块硬盘了。

不过,大数据厂商在宣称10T、3秒这种性能指标时,一般不会明确指出采用压缩或列存技术后存储量和访问量能降到多少。这就容易给用户造成错觉,以为这个技术能够通用地解决大数据问题,而经常,有些数据的压缩率无法做得很高,对于访问列较多的运算列存也没啥优势。

要更准确地估算性能极限,也要考虑减少存储量和访问量的手段。尝试一下自己的数据能有多大的压缩率(用常规的zip软件就可以),并且检查运算是否是从很多列中取出很少列的情况。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
49 2
|
4月前
|
存储 SQL 分布式计算
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
48 1
|
6月前
|
存储 数据采集 机器学习/深度学习
克服大数据障碍的三种方法
克服大数据障碍的三种方法
|
2月前
|
大数据 Java 编译器
关于 Python 在 for 循环里处理大数据的一些推荐方法
关于 Python 在 for 循环里处理大数据的一些推荐方法
38 0
|
3月前
|
算法 数据可视化 大数据
大数据分析的技术和方法——探究现代数据处理的未来方向
在当今信息化时代,海量数据已经成为企业和组织的重要资源。大数据分析技术的出现为数据处理提供了更高效、更准确的解决方案。本文将深入探讨大数据分析技术和方法,分析其优势和应用场景,以及未来发展方向。
|
3月前
|
存储 数据采集 机器学习/深度学习
大数据分析:挖掘数据价值的技术和方法
在数字化时代,大数据已经成为企业和科研机构的重要资源之一。然而,对于海量的数据如何进行分析和挖掘却是一个巨大的挑战。本文将介绍大数据分析的基本概念、技术和方法,帮助读者了解如何利用现代技术和工具,挖掘数据中蕴藏的价值。
104 0
|
4月前
|
SQL 分布式计算 Hadoop
最新大数据集群安装方法CentOS7.6__大数据环境安装和配置
最新大数据集群安装方法CentOS7.6__大数据环境安装和配置
139 0
|
5月前
|
存储 分布式计算 监控
在云原生环境中构建可扩展的大数据平台:方法和策略
在云原生环境中构建可扩展的大数据平台:方法和策略
136 0
|
11月前
|
SQL 机器学习/深度学习 分布式计算
「大数据架构」Spark 3.0发布,重大变化,性能提升18倍
「大数据架构」Spark 3.0发布,重大变化,性能提升18倍