大数据软件自动化-大数据软件自动化文档介绍内容-移动阿里云

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

选择地域和存储

在阿里云EMR中，地域与存储直接影响集群的性能和成本。合理选择地域可降低网络延迟、满足数据...存算分离（OSS-HDFS/OSS）通过对象存储实现业务数据持久化存储，数据盘仅用于临时计算缓存、本地化日志及任务的Shuffle数据，不保留业务数据。

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

支持的云服务

MaxCompute处理非结构化数据时，通过RAM对非结构化数据进行授权。MaxCompute支持直接处理非结构化数据（包含OSS和表格存储），但是需要提前在RAM中授予MaxCompute访问OSS或表格存储的权限，详情请参见 OSS外部表和 Tablestore外部表。阿里...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

Append Delta Table数据组织优化

根据业务的数据量预设合适的Bucket数量，要求用户同时对业务本身的使用模式和MaxCompute底层表格式都有一定的理解，然后才能够正确使用Clustering的相关能力并最大化查询性能收益：面对大规模数据迁移场景，用户需要评估每一张表的潜在业务...

应用场景

湖元数据治理 Data Lake Formation(DLF)提供跨OSS、数据库、文件系统的统一元数据目录服务，支持自动元数据发现、细粒度权限控制、数据血缘追踪，简化湖内数据治理流程。全栈分析引擎 Spark、Hive、Presto/Trino 集成离线ETL（Spark/Hive）...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

数据集成

数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、半结构化数据源...

数据分析概述

如果使用维表功能，运营人员只需要在数据分析创建一张维表，可视化地修改数据并保存，即可自动同步数据至MaxCompute生产表，提高工作效率。权限说明 2022年6月1日起，DataWorks仅支持拥有数据分析师角色权限的用户使用数据分析产品。如果...

风险识别管理

风险识别管理提供了多维度的关联分析及算法，智能化的分析技术帮助您通过风险识别规则，主动发现风险操作并预警，使用可视化方式进行一站式审计。DataWorks内置了多种场景的风险识别规则，您可以直接使用，也可以根据业务场景自定义规则。...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

通过识别任务扫描敏感数据

扫描速度不同类型数据资产的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为每分钟1000列（以每...

数据扫描和识别

DSC 支持对结构化数据源和非结构化数据源进行扫描。支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、PolarDB-X 2.0、Redis、MongoDB、OceanBase、自建数据库。非结构化数据：OSS和SLS。大数据：TableStore、MaxCompute、...

Hive数据管理

JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列化和反序列化逻辑。配置完成后，单击上方工具栏中的发布即可完成建表。管理表在Hive数据目录创建表后，您可依次单击Hive数据目录左侧的图标，单击表进入表 ...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

测试数据构建

数据管理DMS的测试数据构建功能拥有强大的算法引擎，支持批量生成各类随机值、地区名、虚拟IP地址等信息，可以大大减轻准备测试数据的负担。本文介绍构建测试数据的方法。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

Iceberg

而Iceberg简化了工作流程，整个数据处理过程是一条完整的、可靠的实时流，其数据的清洗、转换和特征化等操作都是流上的节点动作，无需处理历史数据和实时数据。此外，Iceberg还支持原生的Python SDK，对于机器学习算法的开发者非常友好。

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

外部表概述

外部表示例您可以通过以下示例，深入了解通过MaxCompute外部表功能处理各种非结构化数据的方法：访问OSS和TableStore（OTS）非结构化数据，请参见 OSS外部表和访问OTS非结构化数据。外部表访问OSS的账号，在RAM中自定义授权MaxCompute...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...

DataWorks On EMR使用说明

并支持将查询结果保存为图表卡片，快速搭建可视化数据报告便于日常汇报。数据分析数据服务 DataWorks数据服务旨在为企业提供全面的数据服务及共享能力，帮助企业统一管理面向内外部的API服务。数据服务五、开放平台 DataWorks支持开放...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

单表离线同步任务

您可以通过定义来源与去向数据源，并通过数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、半结构化数据源之间数据传输。详情请参见：支持的数据源及同步方案。复杂网络环境下的数据同步离线同步支持阿里...

DataWorks On CDP/CDH使用说明

并支持将查询结果保存为图表卡片，快速搭建可视化数据报告便于日常汇报。数据分析概述数据服务 DataWorks数据服务旨在为企业提供全面的数据服务及共享能力，帮助企业统一管理面向内外部的API服务。数据服务概述五、开放平台 DataWorks...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

DataWorks On MaxCompute使用说明

并支持将查询结果保存为图表卡片，快速搭建可视化数据报告便于日常汇报。数据分析概述数据服务 DataWorks数据服务旨在为企业提供全面的数据服务及共享能力，帮助企业统一管理面向内外部的API服务。数据服务概述五、开放平台 DataWorks...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建ArgoDB数据源

通过新建ArgoDB数据源能够实现Dataphin读取ArgoDB的业务数据或向ArgoDB写入数据。本文为您介绍如何创建ArgoDB数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色...