大数据汇总工具-大数据汇总工具文档介绍内容-移动阿里云

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

数据扫描和识别

本文介绍敏感数据扫描和识别的常见问题及解决方法。数据扫描会影响我的数据库性能吗？数据安全中心DSC（Data Security Center）采用全量扫描、增量扫描和定时扫描策略扫描您的数据库。全量扫描会对您的数据库性能产生较小的影响，不会影响...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...

调度设计文档

节点ID 节点名称用途数据输入表数据产出表调度周期 320170257 workshop_start 虚拟节点，用于管理下游节点 Null Null 日 320170260 MySQL数据同步拉取MySQL数据源数据 ods_user_info_d ods_user_info_d 日 320170260 FTP数据同步拉取...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。在私有OSS环境准备步骤中创建的OSS对象存储的 Bucket 将用于接收MySQL数据源的用户信息数据与...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。在私有OSS环境准备步骤中创建的OSS对象存储的 Bucket 将用于接收MySQL数据源的用户信息数据与...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

如何处理数据倾斜

在云数据库 Tair（兼容 Redis）集群架构实例中，若个别数据分片节点（Data Node）的内存使用率、CPU使用率或带宽使用率等性能指标远远高于其他数据分片，该集群可能已产生数据倾斜。数据倾斜严重时，会导致实例在整体内存使用率不高的情况...

数据服务

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

数据服务概述

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

通用配置：添加白名单

云原生大数据计算服务MaxCompute设置白名单 RDS MySQL数据库设置白名单云原生数据仓库AnalyticDB MySQL版设置白名单云原生数据仓库AnalyticDB PostgreSQL版设置白名单云数据库OceanBase 版设置白名单云数据库ClickHouse设置白名单云...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

创建标签项目

说明若数据板块为Dev-Prod模式，归属Prod业务板块的Basic项目中不可以构建规范建模对象，仅可以构建基础层、应用层数据，以免公共层数据标准规范性受影响、数据生产异常。基本信息项目英文名填写项目的英文名。命名规则如下：包含字母、...

创建标签项目

说明若数据板块为Dev-Prod模式，归属Prod业务板块的Basic项目中不可以构建规范建模对象，仅可以构建基础层、应用层数据，以免公共层数据标准规范性受影响、数据生产异常。基本信息项目英文名填写项目的英文名。命名规则如下：包含字母、...

数据源权限管理

本文为您汇总数据源权限管理相关的问题。哪些角色可以管理数据源的权限？是否支持再次分享已被分享的数据源？数据源的创建者是否有权控制该数据源？什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的...

配置数据库的列加密

数据安全中心 DSC（Data Security Center）支持对RDS MySQL、RDS PostgreSQL、PolarDB MySQL、PolarDB PostgreSQL、PolarDB PostgreSQL（兼容Oracle）、PolarDB-X 2.0等数据库类型的数据列进行加密配置，确保数据库中敏感列数据加密后存储...

复合指标

由于派生指标只是针对某业务活动某段时间的数据量统计，无法满足贴近用户实际使用的业务增长率、差值计算等数据的比对需求（例如，统计某业务活动的周环比增长率）。因此，DataWorks为您提供了由派生指标通过运算规则进行计算而形成的复合...

创建通用项目

数据权限审批数据权限审批策略可根据不同的数据等级指定不同的审批规则，能使审批人员着重于高敏感数据，对于公开的数据，可免除审批，从而降低权限审批的负担。更多信息，请参见数据权限配置。资产安全策略安装后可使用数据安全策略，...

创建通用项目

数据权限审批数据权限审批策略可根据不同的数据等级指定不同的审批规则，能使审批人员着重于高敏感数据，对于公开的数据，可免除审批，从而降低权限审批的负担。更多信息，请参见数据权限配置。资产安全策略安装后可使用数据安全策略，...

监控数据质量

本文为您介绍如何通过数据质量实现表数据监控。前提条件在进行本案例前，请确保已完成同步数据和加工数据。已通过数据集成将存储于RDS MySQL的用户基本信息（ods_user_info_d）同步至MaxCompute的ods_user_info_d表。已通过数据集成将...

监控数据质量

本文为您介绍如何通过数据质量实现表数据监控。前提条件在进行本案例前，请确保已完成同步数据和加工数据。已通过数据集成将存储于RDS MySQL的用户基本信息（ods_user_info_d）同步至MaxCompute的ods_user_info_d表。已通过数据集成将...

监控数据质量

本文为您介绍如何通过数据质量实现表数据监控。前提条件在进行本案例前，请确保已完成同步数据和加工数据。已通过数据集成将存储于RDS MySQL的用户基本信息（ods_user_info_d）同步至MaxCompute的ods_user_info_d_odps表。已通过数据...

监控数据质量

本文为您介绍如何通过数据质量实现表数据监控。前提条件在进行本案例前，请确保已完成同步数据和加工数据。已通过数据集成将存储于RDS MySQL的用户基本信息（ods_user_info_d）同步至MaxCompute的ods_user_info_d_odps表。已通过数据...

EMR Hive单表离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转换成...