环境大数据研究中心-环境大数据研究中心文档介绍内容-移动阿里云

数据中心

数据中心包含数据管理、数据配置。数据管理数据管理模块展示并管理用户添加的数据。主要功能包括数据表引入、本地数据导入。数据表支持用户从已注册的计算资源类型中添加数据表。支持基于已添加的数据查看表信息、表内展示的字段。支持将...

数据服务概述

数据服务管理和运维能力：支持草稿态、开发态、生产态隔离：开发态测试查询开发环境的数据，生产态调试查询生产环境数据。支持鉴权、资产转交等服务管理能力：服务调用申请，数据查询鉴权，资产负责人转交。支持服务超时、失败、限流等告警...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

流程简介

数据探索主要包括首页、数据中心、算子中心、模型中心、任务中心等功能。本文介绍了数据探索的业务操作基本流程。数据探索的业务流程如下图所示。数据探索的流程说明如下表所示。流程说明首页提供新手引导及用户登录、模型情况的运行...

DataWorks模块使用说明

数据集成子模块：数据集成功能说明：数据集成是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力，支持离线、实时、以及两者混合的同步方式，同时具备表级别粒度以及库...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

专题广场

个人数据中心：可查看并管理负责人是自己的资产，详情请参见个人数据中心。③配置中心可创建专题分组及配置数据探查。专题分组管理：帮助您对专题分组进行统一管理，提高专题的管理效率，详情请参见新建及管理专题分组。数据探查配置：...

专题广场

个人数据中心：可查看并管理负责人是自己的资产，详情请参见个人数据中心。③配置中心可创建专题分组及配置数据探查。专题分组管理：帮助您对专题分组进行统一管理，提高专题的管理效率，详情请参见新建及管理专题分组。数据探查配置：...

OSS数据安全防护最佳实践

本文介绍如何使用数据安全中心（DSC），对OSS中存储的敏感数据进行识别、分类分级和保护。背景信息敏感数据主要包括个人隐私信息、密码、密钥、敏感图片等高价值数据，这些数据通常会以不同的格式存储在您的OSS Bucket中，一旦发生泄漏，...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

创建并管理数据源

同一个数据源名称可分别配置开发环境数据源、生产环境数据源，且不同环境的数据源配置是相互独立的。管理数据源在数据源管理页面，您可根据数据源类型、数据源名称筛选需要查看的数据源。同时，支持您对目标数据源执行如下管理操作：...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

功能特性

数据安全中心功能集功能功能描述参考文档数据分类分级数据资产接入支持自动发现并接入阿里云上的数据资产。支持通过一键连接或账密连接方式连接数据库，一键接入支持：RDS、PolarDB、PolarDB-X（原DRDS）、Redis、OSS、TableStore、...

新建及管理动态脱敏规则

例如：用于开发环境中读取生产环境数据。数据分类选择数据分类。如需创建数据分类，您也可以单击无可用数据分类，去新建>按钮创建，详情请参见新建数据分类。所属板块支持选择全部或者枚举。选择枚举，需选择访问的数据板块。所属...

新建及管理动态脱敏规则

例如：用于开发环境中读取生产环境数据。数据分类选择数据分类。如需创建数据分类，您也可以单击无可用数据分类，去新建>按钮创建，详情请参见新建数据分类。所属板块支持选择全部或者枚举。选择枚举，需选择访问的数据板块。所属...

MySQL节点

您可以通过创建MySQL节点，直接使用SQL语句对目标MySQL数据源进行数据开发。本文为您介绍如何创建并使用MySQL节点。前提条件 MySQL节点仅支持使用独享调度资源组，独享调度资源组的使用请参考文档：新增和使用独享调度资源组。已通过连接串...

Kafka增量数据同步至MaxCompute

本文以将Kafka增量数据同步至MaxCompute的一个实践为例，为您介绍Kafka的分钟、小时、天增量数据定时调度写入MaxCompute小时、天分区表的配置详情。注意事项 Kafka的版本需要大于等于0.10.2小于等于2.2.x，且Kafka启用了记录时间戳，并且...

Kafka增量数据同步至MaxCompute

本文以将Kafka增量数据同步至MaxCompute的一个实践为例，为您介绍Kafka的分钟、小时、天增量数据定时调度写入MaxCompute小时、天分区表的配置详情。注意事项 Kafka的版本需要大于等于0.10.2小于等于2.2.x，且Kafka启用了记录时间戳，并且...

准备环境

前提条件 大数据开发治理平台DataWorks：购买DataWorks，详情请参见购买指引。说明因本示例提供的数据资源都在华东2（上海），建议购买时选择地域为华东2（上海）。对象存储OSS：已开通OSS服务，具体步骤，请参见开通OSS服务。步骤一：...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时，支持对开发、测试、生产等环境进行隔离，当您联合使用了其他阿里云产品时，也可根据环境隔离诉求进行对应业务的环境设置与隔离，本文以DataWorks联合EMR、OSS等产品为例，为您介绍如何实现开发生产等多套...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

MaxCompute数据源

MaxCompute数据源作为数据中枢，为您提供读取和写入数据至MaxCompute的双向通道。使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。...

客户案例

客户价值百姓网通过数据库网关DG实现无需开通公网地址，即可将私网数据库跨云迁移，解决了本地IDC的私网环境数据库，无法直接被云产品访问的难题，保障了整个跨云迁移过程中的数据安全。借助数据库网关DG的压缩、多并发能力，实现长距离...

周期性调度作业概述

代码示例开发环境（数据开发、开发环境运维中心）执行代码生产环境（生产环境运维中心）执行代码访问开发项目中的开发表：select col1 from projectname_dev.tablename;使用任务执行者个人云账号访问开发表。RAM用户（子账号）执行相关...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

运维中心概述

数据质量通过表配置的分区表达式来匹配节点产出的表分区，数据质量规则关联产出该表数据的调度节点，当节点运行后（运维中心中通过测试实例，补数据实例，周期实例的运行及重跑操作产出表数据），会触发该数据质量规则校验，您可以设置规则...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

功能发布记录（2022年）

2022-11 功能名称功能描述发布时间发布地域使用客户相关文档 DataWorks数据服务支持面向开发和生产环境数据源封装API DataWorks在标准模式的工作空间下，新增如下功能：支持根据自行选择数据源的环境类型（开发环境或生产环境），设置...

功能发布记录（2023年）

2023-12 功能名称功能描述发布时间发布地域使用客户相关文档数据开发（DataStudio）绑定数据源若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）...

DataWorks On CDP/CDH使用说明

数据地图概述安全中心数据保护伞审批中心安全中心、数据保护伞、审批中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

通过操作审计查询行为事件日志

DIRunStreamxJob 运维中心数据集成启动实时任务 DIBatchRunStreamxJob 运维中心数据集成批量启动实时任务 DIStopStreamxJob 运维中心数据集成停止实时任务 DIBatchStopStreamxJob 运维中心数据集成批量停止实时任务 DIOfflineStreamxJob 运...

高效数据治理实施指南

DataWorks数据治理中心可协助数据治理团队建立数据治理框架、优化治理过程、提升治理效率，从而实现治理目标的高效突破。本文通过治理负责人的实操过程，为您介绍如何通过数据治理计划能力，高效设定和达成数据治理目标。背景信息在多人...

新增和使用独享数据集成资源组

绑定归属工作空间 3 若独享资源组需要访问VPC网络环境，您需要为其绑定与目标VPC网络环境数据源或地址网络连通的VPC。绑定专有网络 4 若目标环境存在白名单控制，您需要在目标环境添加独享资源组的相关IP，保障独享资源组可访问目标环境。...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...