玩转大数据系列之一：数据采集与同步-阿里云开发者社区

玩转大数据系列之一：数据采集与同步

2019-01-02 12859

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

大数据开发治理平台 DataWorks，不限时长

云数据库 RDS MySQL Serverless，0.5-2RCU 50GB

简介： 数据的采集和同步，是先将数据从设备、或者本地数据源采集、同步到阿里云上，然后在阿里云上对数据进行分析和处理，最终完成您的业务要求。本文向您介绍阿里云各产品的数据采集和同步的操作实战文章，您可以根据您使用阿里云产品，查看相应的文档教程。

数据的采集和同步，是先将数据从设备、或者本地数据源采集、同步到阿里云上，然后在阿里云上对数据进行分析和处理，最终完成您的业务要求。本文向您介绍阿里云各产品的数据采集和同步的操作实战文章，您可以根据您使用阿里云产品，查看相应的文档教程。

关于数据采集，DataWorks专门有一个模块叫做数据集成，是阿里巴巴集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详细介绍请参见数据集成概述。

MaxCompute

DataWorks

Elasticsearch

AnalyticDB

DataHub

数据同步DTS将RDS数据实时传输至DataHub
流数据同步DataConnector
函数计算作为DataHub后端服务
扩容缩容Merge/Split
Datahub具有服务弹性伸缩功能，用户可根据实时的流量调整Shard数量，来应对突发性的流量增长或达到节约资源的目的。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

玩转大数据系列之一：数据采集与同步

MaxCompute

DataWorks

Elasticsearch

AnalyticDB

DataHub

更多大数据实战文章

热门文章

最新文章

相关课程

相关电子书

相关实验场景