“阿里巴巴大数据系统体系”学习笔记-纲领篇

简介: ‘你是做什么的?’ ‘数据产品经理’看到对方一脸懵逼之后,再补充一句‘大数据相关的工作’ ‘哦~,高大上,不懂’ 过去5年,‘大数据’是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。

你是做什么的?

数据产品经理”看到对方一脸懵逼之后,再补充一句大数据相关的工作

哦~,高大上,不懂


过去5年,“大数据”是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。这种资源其实很早之前就被发现、被应用。只不过因为互联网的发展,数据这种资源呈现出了“爆炸式”的增长,而人们也发现了它巨大的潜在价值;预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB)。

 

所以面对如此“量大”、“价值大”的资源,我们需要建立一套从数据采集、计算到服务到应用的“大数据体系”,就跟“石油体系’一样有勘探、采集、传输、加工、应用等;由此也萌生出一批“大数据体系”相关的工种。

 

阿里巴巴作为距离大数据最近的公司之一,既有丰富的数据资源也有丰富的应用场景,从它建构的大数据体系了解“大数据”这条生态链的全貌,我认为是比较科学的。

 

阿里巴巴大数据系统体系”设计原则:满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能。

 

阿里巴巴大数据系统体系”主要分为数据采集、数据计算、数据服务和数据应用四大层次;

  1. 数据采集

    Web端日志采集技术方案:Aplus.JS

    APP端日志采集技术方案:UserTrack

    生产业务—>大数据系统传输:

    TimeTunnel(TT),既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算;

    数据同步工具(DataX和同步中心)直连异构数据库来抽取各种时间窗口的数据;

  2. 数据计算

    MaxCompute-离线计算平台:阿里自研的离线大数据平台,拥有强大的存储和计算能力;

    StreamCompute-实时计算平台:阿里自研的流式大数据平台,支持流式计算需求;

    OneData-数据整合及管理体系:数据整合及管理的方法体系和工具,大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性。

  3. 数据服务

    OneService-统一的数据服务平台:以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务和实时数据推送服务三大特色数据服务

  4. 数据应用

    数据作为新能源,需要通过合适的应用提供给用户,让数据最大化地发挥价值。应用表现可以在搜索、推荐、广告、金融、物流等各个方面。

f183c15f90e53f86346258be025f4c0f1710124b
转载:数据产品笔记本
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
26天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
1月前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。
|
1月前
|
安全 Java 大数据
基于大数据的旅游系统的设计与实现(论文+源码)_kaic
基于大数据的旅游系统的设计与实现(论文+源码)_kaic
|
2月前
|
监控 物联网 大数据
智慧工地管理平台系统源码基于物联网、云计算、大数据等技术
智慧工地平台APP通过对施工过程人机料法环的全面感知、互联互通、智能协同,提高施工现场的生产效率、管理水平和决策能力,实现施工管理的数字化、智能化、精益化。
56 0
|
3月前
|
人工智能 自然语言处理 大数据
AI大数据智能导诊系统源码 Springboot框架
智能导诊系统是在医院中使用的引导患者自助就诊挂号,在就诊的过程中有许多患者不知道需要挂什么号,要看什么病,通过智慧导诊系统,可输入自身疾病的症状表现,或选择身体部位,再经由智能导诊系统多维度计算,AI智能引擎分析、准确推荐科室,引导患者挂号就诊,实现科学就诊,不用担心挂错号。
57 0
|
4月前
|
SQL 数据可视化 关系型数据库
【大数据实训】基于Hive的北京市天气系统分析报告(二)
【大数据实训】基于Hive的北京市天气系统分析报告(二)
63 1
|
4月前
|
负载均衡 大数据 应用服务中间件
[新星计划]大数据故事集__从超市收银来看网站系统的发展
[新星计划]大数据故事集__从超市收银来看网站系统的发展
37 0
|
4月前
|
分布式计算 网络协议 Hadoop
大数据成长之路------hadoop集群的部署 配置系统网络(静态) 新增集群(三台)
大数据成长之路------hadoop集群的部署 配置系统网络(静态) 新增集群(三台)
27 0
|
4月前
|
分布式计算 资源调度 大数据
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
203 0
|
4月前
|
消息中间件 存储 算法
【云计算与大数据技术】数据编码LZSS算法、Snappy压缩库及分布式通信系统的讲解(图文解释 超详细)
【云计算与大数据技术】数据编码LZSS算法、Snappy压缩库及分布式通信系统的讲解(图文解释 超详细)
81 0

相关产品

  • 云原生大数据计算服务 MaxCompute