【云栖号案例 | 互联网】小打卡:快速部署大数据计算平台实践

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 小打卡目前已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。在庞大的用户量背后,MaxCompute产品的搭建显得尤为重要。

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

案例背景

小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。
在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。
现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。

选择阿里云大数据产品的原因:

1.成本低
享用阿里云超大规模的云计算资源,按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队,在业务发展初期,极大的降低了拥有大数据平台的各项成本。
2.效率高
企业通过阿里云官网了解并采购所需的大数据产品,快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境,以及完善的调度/监控/数据管理等工具能力,提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块,快速相应业务需求
3.性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩,可以支持TB/PB/EB级数据规模,千万级别复杂任务调度和万兆的网络同步速率。
4.安全
阿里云大数据提供云上数据的安全,以及企业租户之间的安全隔离,大数据项目不同角色的权限管理和各种数据资源的权限管理。

大数据实践

小打卡基于阿里云大数据产品实现的离线数仓架构:

image

面向小打卡的各项业务场景,所需的基本产品搭配:

1.用户行为分析 :DataWorks + 数据集成 + MaxCompute + Quick BI
2.数据化运营:DataWorks + 数据集成 + MaxCompute + RDS
3.线上数据服务:DataWorks + 数据集成 + MaxCompute + OTS/API网关
4.推荐系统:DataWorks + 数据集成 + MaxCompute + PAI + OSS

  • 实践case:

1.业务分析需求:监控每小时访问小打卡小程序的新增用户数及活跃用户数
2.阿里云大数据产品搭配:DataWorks + 数据集成 + MaxCompute + Quick BI

- DataWorks:DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

- MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
数据集成:数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

  • Quick BI:uick BI是阿里云旗下产品,是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。

3.用2-3个工作日,快速搭建大数据平台:

步骤一:注册阿里云账号,开通DataWorks及Quick BI
步骤二:快速建设数仓

1)在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。

image

image

2)DataWorks平台中集成了数据集成和MaxCompute等大数据产品,可以一站式的开发。

image

在DataStudio(大数据集成开发环境工具)中建设数据仓库,创建业务流程,物理模型,数据集成任务及ETL任务。

业务流程帮助企业总结业务的一般流程,来有效组织相互依赖的数据流,数据集成任务,ETL任务,数据表和UDF等其他资源。

image

数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库

阿里云的数据集成提供丰富的数据源支持:

  • 文本存储(FTP/SFTP/OSS/多媒体文件等)
  • 数据库(RDS/DRDS/MySQL/PostgreSQL等)
  • NoSQL(Memcache/Redis/MongoDB/HBase等)
  • 大数据(MaxCompute/AnalyticDB/HDFS等)
  • MPP数据库(HybridDB for MySQL等)

image

继续在DataStudio中开发物理模型和ETL任务。

image

image

发布任务流程,并在运维中心中调度和监控

image

3)将数据接入Quick BI,交付业务部门使用。

目前由于小打卡分析业务的团队规模较小,仅有10-20人的规模,所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱,非常省钱,部署也是非常的快速。

但是缺点则是查询速度较慢,只能维持在秒级,且报表的查询并法度有瓶颈。后续随着分析团队规模的增加,会适时的优化架构,引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。

image

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
2月前
|
数据采集 监控 算法
利用大数据和API优化电商决策:商品性能分析实践
在数据驱动的电子商务时代,大数据分析已成为企业提升运营效率、增强市场竞争力的关键工具。通过精确收集和分析商品性能数据,企业能够洞察市场趋势,实现库存优化,提升顾客满意度,并显著增加销售额。本文将探讨如何通过API收集商品数据,并将这些数据转化为对电商平台有价值的洞察。
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
703 0
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
104 0
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
69 0
|
2月前
|
监控 物联网 大数据
智慧工地管理平台系统源码基于物联网、云计算、大数据等技术
智慧工地平台APP通过对施工过程人机料法环的全面感知、互联互通、智能协同,提高施工现场的生产效率、管理水平和决策能力,实现施工管理的数字化、智能化、精益化。
51 0
|
3月前
|
SQL 分布式计算 HIVE
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
|
3月前
|
SQL 消息中间件 分布式计算
开源湖仓一体平台(一):LakeSoul
开源湖仓一体平台(一):LakeSoul
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0