建立大数据中心-建立大数据中心文档介绍内容-移动阿里云

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

OSS数据离线同步至MaxCompute

Region和Endpoint对照表请参见访问域名和数据中心。添加数据源新建OSS数据源在DataWorks 数据源管理页面，单击新建数据源，根据界面提示新建OSS数据源。OSS数据源支持 RAM角色授权模式与 Access Key认证模式两种方式：Access key...

OSS数据离线同步至MaxCompute

Region和Endpoint对照表请参见访问域名和数据中心。添加数据源新建OSS数据源在DataWorks 数据源管理页面，单击新建数据源，根据界面提示新建OSS数据源。OSS数据源支持 RAM角色授权模式与 Access Key认证模式两种方式：Access key...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

有数BI

说明您可以在工作区将多张表关联成一张表，也可以进行数据处理，例如字段重命名、类型转换、空值处理、建立数据字典、添加计算字段、创建层级、分组等操作。具体操作，请参见模型制作演示。选择指定文件夹或新建文件夹后，单击确定，...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

JindoFS实战演示

Flume高效写入OSS Flume高效写入OSS 2021-06-01 Flume是一个分布式、可靠、高可用的系统，支持从不同数据源高效地收集、聚合、迁移大量日志数据，聚合到中心化的数据存储服务，被广泛用于日志收集场景中。由于OSS本身不支持Flush功能，而...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

MaxCompute近实时增全量一体化架构介绍

面对当前日益复杂且对数据时效性要求极高的近实时业务场景，MaxCompute基于Transaction Table2.0推出了集大规模存储、高效批量处理和近实时能力于一体的近实时增量一体化架构。本文为您介绍该架构的工作原理及其优势。背景和现状在当前...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

迁移方案概览

建议使用高速通道（Express Connect）或智能接入网关SAG（Smart Access Gateway）将本地数据中心和云上专有网络打通，然后通过专线/VPN网关/智能网关的接入方式将自建数据库接入DTS。更多信息，请参见连接本地IDC。云企业网CEN 源为自建...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

新零售：特步

对访问量和数据量较大的业务中心，例如订单中心，PolarDB-X 采用了水平拆分的方式，结合弹性升降配和平滑扩容使数据库具备了100 TB数据存储的能力、10万TPS、百万QPS的支撑能力，可以支撑特步扩展业务至当前业务量的5~10倍。从数据的实时性...

通过VPN网关实现本地IDC与DTS云服务互通

企业可以通过公网网络类型的VPN网关在本地数据中心和VPC之间建立IPsec-VPN连接，实现本地数据中心和VPC之间的加密互通，然后在本地数据中心和VPC之间加密互通的基础上使用DTS实现本地数据中心下的数据自动同步至VPC的数据库中。前提条件您...

什么是Dataphin

运维中心资产全景及目录支持采集、解析和管理基础数据中心、公共数据中心、萃取数据中心的元数据。在元数据中心基础上，深度分析元数据，实现数据资产化管理。为您可视化地呈现资产分布、元数据详情等，方便您快速查找、深度了解数据资产...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

东软案例

解决方案东软集团围绕运营商、政务云和汽车等行业新一代数字信息系统IT运维场景海量监控数据存储分析痛点，将从遍布全国多地域的手机、平板等终端连接应用系统业务服务的数字足迹和客户数字体验数据、云端&数据中心网络抓包分析数据，应用...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

客户案例

阿里妈妈公司介绍阿里妈妈广告业务主要是一种 P4P（Pay for Performance）形式的广告业务系统，而报表中心作为阿里妈妈向广告主透出广告效果数据的唯一平台，在阿里巴巴大平台丰富多样的商业场景下，为客户提供优质，高效，可靠的数据...

审计配置

在使用数据安全中心DSC（Data Security Center）提供的安全审计功能前，您需要先完成审计配置。DSC 根据您配置的审计模式采集审计日志，并根据已开启的审计规则上报审计告警。本文介绍如何进行审计配置。前提条件已购买 DSC 企业版。具体...

高效数据治理实施指南

DataWorks数据治理中心可协助数据治理团队建立数据治理框架、优化治理过程、提升治理效率，从而实现治理目标的高效突破。本文通过治理负责人的实操过程，为您介绍如何通过数据治理计划能力，高效设定和达成数据治理目标。背景信息在多人...

什么是数据库网关

DBS提供秒级恢复、备份数据湖分析等能力，可触达本地数据中心、其他云厂商、专有云及公共云等环境，构建企业级混合云统一备份平台。数据库备份DBS支持通过数据库网关备份本地或第三方云的私网数据库到云存储，可将数据库低成本地接入至阿里...

RestAPI Reader最佳实践

数据集成RestAPI Reader插件提供了读取RESTful接口数据的能力，通过配置HTTP请求地址，可获取RestAPI类型的数据源数据（例如获取时间范围内的数据、获取分页数据、循环请求参数获取数据等），并转换为数据集成支持的数据类型，传递给下游...

2023年

使用do-while节点实现复杂的数据分析 2023-09-20 新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移新说明本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移，包括两种使用场景：同云账号内不同Region...

建立性能基准

测试项测试值数据同步时间无占用存储大小无查询执行时间无查询费用预估无记录数据同步时间在您执行数据同步任务后，可以在运维中心>周期实例页面右键查看用户任务运行时间，如下图所示。记录占用存储大小登录 DataWorks控制...

建立性能基准

测试项测试值数据同步时间无占用存储大小无查询执行时间无查询费用预估无记录数据同步时间在您执行数据同步任务后，可以在运维中心>周期实例页面右键查看用户任务运行时间，如下图所示。记录占用存储大小登录 DataWorks控制...

模型画布简介

在模型画布中，您可通过鼠标的拖拽和简单的条件设定，即可快速实现数据和原子算法的快速组装，即便是没有基础的业务人员，也可方便的建立自己的模型、形成自己的标签、自主探索使用数据。本文介绍模型画布，方便您快速入手模型建立。序号 ...

创建与释放全球多活数据库集群

双向同步任务时，DTS会在中心节点和单元节点中建立名为 dts 的库，以避免数据循环同步，任务运行期间，请勿修改该库。rdsdt_dtsacct是全球多活数据库的同步账号，请勿修改账号的密码，否则导致数据同步失败。执行数据同步前需评估源库和...

配置并管理实时同步任务

完成数据源、网络、资源的准备配置后，您可创建实时同步节点，同步数据至Kafka。本文为您介绍如何创建数据实时同步任务，并在创建完成后查看任务运行情况。前提条件已完成数据源配置。您需要在数据集成同步任务配置前，配置好您需要同步的...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据...

离线同步常见问题

您可以在 DataStudio 修改数据集成任务调试所用的资源组，同时，也支持您在运维中心修改任务调度时所使用的数据集成任务执行资源组。配置详情请参见：新增和使用独享数据集成资源组。脏数据如何排查和定位？脏数据定义：单条数据写入目标...

配置并管理实时同步任务

完成数据源、网络、资源的准备配置后，您可创建实时同步节点，同步数据至DataHub。本文为您介绍如何创建数据实时同步任务，并在创建完成后查看任务运行情况。前提条件已完成数据源配置。您需要在数据集成同步任务配置前，配置好您需要同步...