大数据时代读大历史-大数据时代读大历史文档介绍内容-移动阿里云

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

Dataphin支持的实时数据源

Ververica Flink支持的实时数据源存储类型数据源类型读写维表读 大数据存储 MaxCompute 支持支持支持 DataHub 支持支持-Hologres 支持支持支持数据湖 Hudi 支持支持-Iceberg 支持（仅支持原生DDL方式）支持（仅支持原生DDL方式...

MongoDB只读节点简介

两个或以上只读节点可以使用ReadOnly ConnectionStringURI实现读请求负载均衡，适用于从现有实例中读取大量数据的业务场景，如BI分析、大数据分析等。从节点（Secondary）从节点具有高可用保障，即某个从节点故障时，系统会自动将其与隐藏...

如何对JSON类型进行高效分析

半结构化数据通常存在于Web页面、XML、JSON、NoSQL数据库等场景中，其灵活性和易扩展性使其成为大数据时代中不可或缺的一部分。PolarDB MySQL版本身是一个关系型数据库管理系统，其存储的数据通常是结构化数据，但也原生支持存储和查询半...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

配置DataHub输入组件

配置DataHub输入组件后，可以将DataHub数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置DataHub输入组件。前提条件已创建离线单条管道，详情请参见通过单条管道创建集成任务。操作步骤 ...

配置DataHub输入组件

配置DataHub输入组件后，可以将DataHub数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置DataHub输入组件。前提条件已创建离线单条管道，详情请参见通过单条管道创建集成任务。操作步骤 ...

配置Kafka输入组件

配置Kafka输入组件后，可以将kafka数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置Kafka输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Kafka数据源。具体操作，...

配置Kafka输入组件

配置Kafka输入组件后，可以将kafka数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置Kafka输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Kafka数据源。具体操作，...

冷热分离介绍

背景信息在海量大数据场景下，一张表中往往存储着大量的历史数据，如订单数据或者监控数据。随着时间的推移，这些数据被访问的频率会逐渐降低，最终被搁置。减少这部分数据的存储成本，成为一个新的问题。为解决这一问题同时降低存储成本...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

调优集群性能

如下图所示，某个大表分布不均，存储节点0上的Shard_0和Shard_1中数据量较大，而在存储节点1上的Shard_2和Shard_3中数据量较小，那么当您查询这个大表时，较大概率会出现存储节点0需要处理的数据多，存储节点1上需要处理的数据少的情况，...

配置数据校验

每秒读取的最大数据行数rps 全量数据校验会占用数据库一定的读取资源，您可以根据实际情况对全量校验任务进行限速设置（每秒读取的数据行数和数据量），以缓解数据库的压力。说明参数值为0时表示无限制，当每秒读取的最大数据行数rps 和 ...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

集群版-单副本

吞吐密集型应用相比标准版，集群版对内网吞吐量限制相对较低，针对热点数据读取、大吞吐类型的业务可以友好的支持。对Redis协议不敏感的应用集群版的架构引入了多个组件，在对Redis协议的支持上相比标准版有一定限制。详情请参见集群...

操作指南

一、大数据专家服务流程指南二、服务流程说明用户可以根据自己实际需要，提前或者在问题发生时购买大数据专家服务，服务项包含大数据技术架构方案咨询、大数据解决方案POC、大数据搬站迁云方案咨询、跨地域迁移支持服务、大数据专家高阶...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 GreenPlum 支持支持 TDengine 不...

E-MapReduce本地盘实例大规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点，并进行大数据基准性能测试。应用范围需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

外部表常见问题

问题类别常见问题 OSS外部表自定义Extractor在读取非结构化数据时，如果数据字段存在DATETIME类型，报错ODPS-0123131，如何解决？在MaxCompute上访问OSS外部表，编写UDF本地测试通过，上传后报错内存溢出，如何解决？通过外部表处理OSS...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

快速入门

本文介绍大数据专家服务的购买方式。价格版本定价说明：点击查看价格。操作步骤第一步：进入阿里云官网，打开 大数据专家服务产品详情。第二步：点击大数据专家服务产品详情页中的“咨询购买”接入钉群与专家服务同学沟通场景需求。第三...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...