在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

开源大数据EMR 2019-09-12

阿里云EMR

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到1000万条访问统计,这样就能降低1000倍的数据处理量,从而在查询时大幅减少计算量,提升响应速度。更高层的聚合可以带来进一步的性能提升,例如,在时间维按天聚合,或者通过站点而不是URL聚合。
本文,我们将介绍 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨它是如何解决大数据中数据聚合的问题。首先,我们先讨论一下这其中面临的挑战。

再聚合(Reaggregation)的挑战

预聚合是数据分析领域的一个强大的技术手段,前提就是所要计算的指标是可重聚合的。聚合操作,顾名思义,是满足结合律的,所以很容易引入再聚合

登录 后评论
下一篇
冒顿单于
11841人浏览
2019-08-28
相关推荐
后Hadoop时代的大数据架构
1141人浏览
2017-08-01 15:26:00
后Hadoop时代的大数据架构
1340人浏览
2017-05-02 14:11:00
大数据开发必备技能
1536人浏览
2019-04-19 15:50:14
大数据学习资源汇总
3905人浏览
2016-05-09 15:27:26
大数据的那些事儿
1595人浏览
2016-09-26 21:20:41
0
0
0
8322