贵州发展大数据的八个一建议-贵州发展大数据的八个一建议文档介绍内容-移动阿里云

数据分析整体趋势

技术发展趋势商业数据库起步于二十世纪八十年代，主要代表为Oracle，SQL Server，DB2等结构化数据在线处理的关系型数据库，而以MySQL，PostgreSQL为代表的开源关系型数据库也在二十世纪九十年代得到了发展。近些年来，随着业务数据量的...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

Query级别诊断结果

建议先找到读取数据量较大的Stage以及相关的表扫描算子（TableScan）。您可以在 AnalyticDB MySQL版 SQL诊断的Stage层或算子层执行计划中的统计信息区域查看对应Stage 扫描行数、扫描量，或TableScan算子的输入行数和输入大小来判断...

PolarDB Serverless实现了哪些突破

第一代云原生数据库的困境早期的云上数据库，大部分是以ECS中的自建数据库和云厂商托管的数据库RDS的形态存在的，到目前为止还是有非常大的用户量。这些云上数据库架构使用的是传统数据库的架构，只是运行在云的基础设施上，数据库本身并...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

数据接口配置说明

本文介绍区块内部的数据接口的配置的方法，帮助您理解区块的数据接口功能。在区块编辑器内，您可以单击区块编辑器右上角的图标，在数据接口设置页签中支持如下数据接口配置操作。切换模式在对话框上方可以切换数据接口模式，可选视图...

数据接口配置说明

本文介绍区块内部的数据接口的配置的方法，帮助您理解区块的数据接口功能。在区块编辑器内，您可以单击区块编辑器右上角的图标，在数据接口设置页签中支持如下数据接口配置操作。切换模式在对话框上方可以切换数据接口模式，可选视图...

Stage级别诊断结果

较大的数据量被广播 Stage输入数据倾斜 Stage输出数据倾斜较大的数据量被广播问题广播（Broadcast）是在两个相邻的Stage间，上游向下游Stage传输数据时所用的一种方法（更多详情，请参见数据输出类型）。如果某个Stage广播了较多数据，...

自建Oracle迁移至PolarDB PostgreSQL版（兼容Oracle）

通过使用数据传输服务DTS（Data Transmission Service），您可以将自建Oracle迁移至 PolarDB PostgreSQL版（兼容Oracle）集群。前提条件已创建源数据库自建Oracle和目标集群 PolarDB PostgreSQL版（兼容Oracle）。说明目标集群 PolarDB ...

PostgreSQL逻辑备份

注意事项对于PostgreSQL数据库的逻辑备份，包含RDS PostgreSQL、PolarDB PostgreSQL或其他数据源类型为PostgreSQL的数据库，DBS备份计划的备份维度是库级别，即每个DBS备份计划只能备份一个数据库。如果有多个库需要备份，需要购买多个DBS...

创建RDS MySQL数据订阅通道

通过数据订阅功能，您可以实时订阅源库的增量数据，轻松帮助业务实现轻量级缓存更新、业务异步解耦、含ETL逻辑的数据实时同步等场景。本文将介绍如何创建RDS MySQL数据订阅通道。注意事项由于使用gh-ost或pt-online-schema-change等类似...

上传数据

DataWorks支持将本地的CSV文件或部分文本文件数据直接上传至MaxCompute表中，本文为您介绍操作步骤详情。前提条件已准备好用于接收本地数据的MaxCompute表。您可以选择已创建的MaxCompute表，或者直接新创建一个MaxCompute表，建表操作可...

配置转换组件

本文介绍数据库传输服务DTS提供的ETL功能支持的转换组件及其配置方法。背景信息 ETL支持的转换组件如下：表JOIN 字段计算器表记录过滤使用限制 ETL支持的转换组件存在如下限制：表JOIN：仅支持两个表之间做JOIN操作。字段计算器和表...

概述

本文档介绍了 PolarDB MySQL版数据与缓存一站式功能，如功能概览、适用场景、核心优势、技术原理等。简介传统的数据与缓存一站式的解决方案通常为Cache Aside模式。Cache Aside模式下，持久化层和缓存层的一致性问题主要是“双写”，即...

从ECS上的自建Redis同步至Redis实例

数据传输服务DTS（Data Transmission Service）支持Redis数据库的单向同步，适用于异地多活、数据异地容灾等多种应用场景。本文以ECS上的自建Redis同步至Redis实例为例，介绍数据同步作业的配置流程。警告完成数据同步作业的配置后，请勿...

从ECS上的自建Redis同步至Redis实例

数据传输服务DTS（Data Transmission Service）支持Redis数据库的单向同步，适用于异地多活、数据异地容灾等多种应用场景。本文以ECS上的自建Redis同步至Redis实例为例，介绍数据同步作业的配置流程。警告完成数据同步作业的配置后，请勿...

离线同步常见问题

MongoDB同步至数据目的端数据源后，时区加了8个小时，如何处理？读取MongoDB数据期间，源端有更新记录，但未同步至目的端，如何处理？读取OSS文件是否有文件数限制？写入DataHub时，一次性写入数据超限导致写入失败如何处理？使用lindorm ...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

配置Greenplum输入组件

同步Greenplum数据源的数据至其他数据源的场景中，您需要先配置Greenplum输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置Greenplum输入组件。操作步骤请参见离线管道组件开发入口，进入离线管道脚本的开发页面...

产品架构

数据源地址动态适配对于数据订阅及同步链路，容灾系统还会监测数据源的连接地址切换等变更操作，一旦发现数据源发生连接地址变更，它会动态适配数据源新的连接方式，在数据源变更的情况下，保证链路的稳定性。数据迁移工作原理数据迁移...

从ECS上的自建Redis同步至云数据库Redis实例

数据传输服务DTS（Data Transmission Service）支持Redis数据库的单向同步，适用于异地多活、数据异地容灾等多种应用场景。本文以ECS上的自建Redis同步至Redis实例为例，介绍数据同步作业的配置流程。警告完成数据同步作业的配置后，请勿...

数据保护机制

在实际业务处理过程中，用户可能会同时具备多个项目的访问权限，此时会存在数据在项目间流转的安全问题。MaxCompute提供了数据保护机制，支持对数据流出行为进行控制，为项目数据的安全性提供保障。本文为您介绍MaxCompute的数据保护机制...

概览

为了更好地指导您使用数据管理DMS（Data Management），DMS推出解决方案系列文档，旨在通过最佳实践（Step by Step）的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 DMS为在线流程化系统，可统一管理企业内...

面临的业务挑战

数据来源上包含数据库数据、日志数据、对象数据以及已有数仓上的存量数据等。这些不同来源、不同格式的数据，各自又有不同的访问和分析方式，而大量传统企业基于关系数据库构建自己的业务系统，已经非常熟悉按SQL的方式去使用数据，这无疑...

层次调用规范

在完成数据仓库的分层后，您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据...

混合存储型（已停售）

云原生内存数据库Tair 混合存储型整合了内存和磁盘二者的优势，在提供高速数据读写能力的同时满足了数据持久化的需求。说明混合存储型已停止售卖，更多信息，请参见【通知】混合存储型实例停止售卖，推荐选择持久内存型实例。简介图 1....

设计阶段

镜像全量表：重要数据建议采用极限存储。流水全量表：如果不可再生，则永久保存。DWD层维度表：按日分区的极限存储模式。事实表：按日分区且永久保留。周期性快照事实表：采用极限存储或根据自身情况设置生命周期。DWS层汇总指标：自行...

层次调用规范

在完成数据仓库的分层后，您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据...

ClickHouse集群中数据库和表的数量限制建议

为了维护云数据库ClickHouse集群的运行和管理，建议您限制 ClickHouse 集群中数据库和表的数量。这些可以使您在保持服务性能和管理效率的同时，对其数据库架构进行合理的规划。本文介绍ClickHouse集群中数据库和表的数量限制建议。云数据库...

创建并管理数据源

若您想在DataWorks操作您的数据库或数据仓库（例如，MaxCompute项目数据），需先在DataWorks的数据源管理页面，将数据库或数据仓库创建为DataWorks的数据源，并将该数据源绑定至DataWorks相应的功能模块使用。例如，同步MaxCompute数据前，...

通过一键建仓同步至数仓版

您可以在 AnalyticDB MySQL版控制台上通过一键建仓将一个或多个RDS MySQL实例中的数据同步到 AnalyticDB MySQL 集群中，快速创建RDS MySQL数据仓库。适用范围一键创建数据仓库仅适用于 AnalyticDB MySQL版数仓版（3.0）集群。前提条件 ...

引擎类型

云原生多模数据库 Lindorm 内含宽表引擎、时序引擎、搜索引擎、文件引擎、计算引擎和流引擎，兼容HBase/Cassandra/S3、OpenTSDB、Solr、HDFS、Kafka等多种开源标准接口，同时提供SQL查询、时序处理、文本检索分析等能力。为应对动态变化的...

基本概念

这些分片分散在若干个存储节点组（Worker Group）上，每个存储节点组维护一部分数据，有利于提高系统的可伸缩性和性能。每个分片都由一个独立的Raft组管理。同一个Raft组的多副本部署在同一个存储节点组的多个节点，通过Raft协议保证多副本...

离线同步并发和限流之间的关系

在一些数据同步场景，脏数据的出现会导致任务同步效率下降，以关系数据库写出为例，默认是执行batch批量写出模式，在遇到脏数据时会退化为单条写出模式（以找出batch批次数据具体哪一条是脏数据，保障正常数据正常写出），但单条写出效率会...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

技术发展趋势

规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测，从2018年到2025年，全球数据将从33ZB急速增长到175ZB，比2016年产生的数据量增加了十倍。这表明注重数据价值...

标准版-单副本

标准版-单副本采用单节点架构，可以在没有数据可靠性要求的纯缓存场景充分发挥性能优势。架构简介标准版-单副本采用单个数据库节点部署架构，没有可实时同步数据的备用节点，适用于数据可靠性要求不高的纯缓存业务场景使用。单副本架构...

公共规范

本文为您介绍建设MaxCompute数据仓库的公共规范。层次调用约定应用层应优先调用公共层数据，必须存在中间层CDM数据，不允许应用层跨过中间层CDM从ODS层重复加工数据。中间层CDM需要积极了解应用层数据的建设需求，将公用的数据沉淀到公共...

SQL Server迁移上云指南

本文为您介绍SQL Server常见的几种迁移上云的方案，您可以根据数据源的位置、各方案使用的工具、各方案的优势与限制等，选择最适合您的上云方案。上云方案简介上云方案实现流程操作步骤物理备份上云使用OSS（手动上云）将数据库日志...