大数据基础环境-大数据基础环境文档介绍内容-移动阿里云

概述

将数据模型设计管控、引标落标等能力融入DataWorks规范化开发流程，助力用户实现数据资产价值化输出，在数据全生命周期上夯实数据基础，为客户的数据价值化提供有力支撑。使用流程使用阿里云DataWorks的数据建模（DATABLAU）时，您需要：...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

开发Dataphin数据源并加速数据查询

开发Dataphin数据源即将Dataphin中的逻辑表和物理表配置为供应用调用的Dataphin数据源，同时您可以为已开发的Dataphin数据源所在的计算空间添加Hologres加速计算源，以满足对查询速度有要求的业务场景。本文为您介绍如何开发Dataphin数据源...

数据治理

参数 reg_mobile_phone user_regip 敏感字段类型 retail_e_commerce_2_手机 retail_e_commerce_2_ip 所属分类基础数据基础数据所属分级敏感敏感描述信息-识别规则命中条件满足以下任一条件即命中规则满足以下任一条件即命中规则 ...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

管理Dataphin数据源权限

参数描述 数据环境 选择申请Dataphin数据源权限的环境。所属项目选择申请Dataphin数据源所属的项目。Dataphin数据源选择Dataphin数据源分组及Dataphin数据源。逻辑表选择该Dataphin数据源下的逻辑表。系统支持选择多个逻辑表。物理表 ...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

必读：简单模式和标准模式的区别

绑定后不同工作空间模式下，DataWorks模块对应操作的数据源如下表所示：DataWorks模块标准模式简单模式数据开发操作开发环境数据源（实例，项目、数据库）操作生产环境数据源（实例，项目、数据库）运维中心开发环境运维中心：操作...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据库克隆

数据管理DMS的数据库克隆功能支持将源数据库的表结构和表数据复制至目标数据库中，实现全部表或部分表备份，适用多环境数据库初始化，例如将开发环境复制到测试环境。前提条件源数据库与目标数据库类型相同，且都为MySQL。数据库实例的...

Transaction Table2.0概述

随着当前数据处理业务场景日趋复杂，很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

购买指引-全托管

基础研发版（离线&实时）：支持离线研发和实时研发场景，可创建生产、开发隔离的双环境项目，适用于数据量较丰富、权限管控较严、有一定大数据开发能力的企业用户。敏捷研发版（离线）：支持离线研发场景，可创建生产开发一体化的基础项目...

安全设置

同一项目，用户可以在Dev环境直接操作Prod环境的数据，造成Prod环境数据泄漏或意外变更。下表以开发者角色为例，介绍安全模式开启与关闭的情况下，对项目的操作权限。操作默认（权限模式均未开启）跨项目安全模式（开启）生产数据安全模式...

安全设置

同一项目，用户可以在Dev环境直接操作Prod环境的数据，造成Prod环境数据泄漏或意外变更。下表以开发者角色为例，介绍安全模式开启与关闭的情况下，对项目的操作权限。操作默认（权限模式均未开启）跨项目安全模式（开启）生产数据安全模式...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

准备环境

前提条件 大数据开发治理平台DataWorks：购买DataWorks，详情请参见购买指引。说明因本示例提供的数据资源都在华东2（上海），建议购买时选择地域为华东2（上海）。对象存储OSS：已开通OSS服务，具体步骤，请参见开通OSS服务。步骤一：...

快速体验

数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据地图（必选）、大数据开发治理平台 DataWorks数据保护伞（必选），基础版DataWorks已包含。数据展示：智能分析套件Quick BI（必选），您可根据...

绿地

可配置选择L1和L2两种数据精度，本文分别从L1和L2两种精度介绍绿地的样式和数据配置，包括绿地的阴影、环境贴图强度系数和面类型等样式配置。绿地用于表示程序化生成的城市中绿地样貌。本文介绍绿地配置项的含义。在场景编辑器左侧图层列表...

绿地

可配置选择L1和L2两种数据精度，本文分别从L1和L2两种精度介绍绿地的样式和数据配置，包括绿地的阴影、环境贴图强度系数和面类型等样式配置。绿地用于表示程序化生成的城市中绿地样貌。本文介绍绿地配置项的含义。在场景编辑器左侧图层列表...

新建 ADB 数据源

背景信息 ADB 的基本介绍请参见 基础数据类型。ADB 的建表、分区表和分布表的详情请参见 CREATE TABLE。OceanBase 数据库 MySQL 租户至 ADB 的数据类型映射规则请参见数据类型映射表格。操作步骤登录 OceanBase 管理控制台。在左侧导航栏...

场景：跨账号创建数据源

标准模式工作空间，需分别创建开发环境数据源和生产环境数据源。工作空间模式，详情请参见必读：简单模式和标准模式的区别。关键参数配置如下：对方账号的UID：其他阿里云账号（即账号B）的账号UID。需从账号B处获取。对方RAM角色：允许本...

数据模型架构规范

它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。CDM：Common Data Model，公共维度模型层，又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可...

道路

可配置选择L1和L2两种数据精度，本文以L2精度为例介绍道路的样式和数据配置，包括道路的阴影、环境贴图强度系数和面类型等样式配置。本文介绍道路配置项的含义。在场景编辑器左侧图层列表中，单击道路图层，进入配置面板配置道路图层的...

道路

可配置选择L1和L2两种数据精度，本文分别从L1和L2两种精度介绍道路的样式和数据配置，包括道路的阴影、环境贴图强度系数和面类型等样式配置。本文介绍道路配置项的含义。在场景编辑器左侧图层列表中，单击道路图层，进入配置面板配置 ...

道路

可配置选择L1和L2两种数据精度，本文分别从L1和L2两种精度介绍道路的样式和数据配置，包括道路的阴影、环境贴图强度系数和面类型等样式配置。本文介绍道路配置项的含义。在场景编辑器左侧图层列表中，单击道路图层，进入配置面板配置 ...

数据服务概述

数据服务管理和运维能力：支持草稿态、开发态、生产态隔离：开发态测试查询开发环境的数据，生产态调试查询生产环境数据。支持鉴权、资产转交等服务管理能力：服务调用申请，数据查询鉴权，资产负责人转交。支持服务超时、失败、限流等告警...

绿地

可配置选择L1和L2两种数据精度，本文以L2精度为例介绍绿地的样式和数据配置，包括绿地的阴影、环境贴图强度系数和面类型等样式配置。绿地用于表示程序化生成的城市中绿地样貌。本文介绍绿地配置项的含义。在场景编辑器左侧图层列表中，单击...

MaxCompute数据源

MaxCompute数据源作为数据中枢，为您提供读取和写入数据至MaxCompute的双向通道。使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...