大数据常用工具-大数据常用工具文档介绍内容-移动阿里云

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

DataWorks On EMR使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至EMR Hive的能力，您需要将Hive组件创建为 DataWorks的 Hive数据源，实现将其他数据源的数据同步至Hive数据源，或将Hive数据源的数据同步至其他数据源。同时，可根据需要选择...

Append Delta Table数据组织优化

要求数据必须以插入或覆写数据（INSERT INTO|INSERT OVERWRITE）的形式一次性写入，在写入完成后，如果需要再进一步追加数据，则需要将表中原有的数据全部读取，与新增数据并集（UNION）之后再次写入，数据追加代价非常大，效率很低。...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

风险识别管理

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10,000时命中该规则。周一至周五：19:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

基本概念

DTS 数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，帮助您构建安全、可扩展、高可用的...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

图扑案例

厦门图扑软件联手云原生多模数据库 Lindorm 开启工业物联超融合存储模式，应用于工业、制造、楼宇建筑、航空与航天行业。业务/技术亮点百PB级海量多源异构监控数据一站存储。每秒高吞吐量轻松应对监控指标高并发写入。多模数据检索引擎...

创建DolphinDB数据源

连接重试次数将默认应用于离线集成任务与全域质量（需开通资产质量功能模块），离线集成任务中支持单独配置任务级别的重试次数选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

创建DolphinDB数据源

连接重试次数将默认应用于离线集成任务与全域质量（需开通资产质量功能模块），离线集成任务中支持单独配置任务级别的重试次数选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。本文示例新建名为 rds_workshop_...

创建Doris数据源

连接重试次数将默认应用于离线集成任务与全域质量（需开通资产质量功能模块），离线集成任务中支持单独配置任务级别的重试次数选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

创建Doris数据源

连接重试次数将默认应用于离线集成任务与全域质量（需开通资产质量功能模块），离线集成任务中支持单独配置任务级别的重试次数选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建及管理应用系统

应用系统可作为元数据采集的数据来源，也可同步开启消费功能以对接Quick BI自助消费。本文为您介绍如何创建及管理应用系统。前提条件仅支持V5.5.1及以上版本、独立部署环境的Quick BI应用系统。需购买资产消费功能才能配置消费相关配置。...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

简介

时空数据管理面临的挑战 Ganos 解决什么问题 Ganos 为数据库构建了面向新型时空多模多态数据的一体化表达、存储、查询、分析与渲染支撑能力，解决了以往时空大数据使用流程复杂、使用门槛高、应用效率低等问题，可广泛应用于城市管理、交通...

简介

时空数据管理面临的挑战 Ganos 解决什么问题 Ganos 为数据库构建了面向新型时空多模多态数据的一体化表达、存储、查询、分析与渲染支撑能力，解决了以往时空大数据使用流程复杂、使用门槛高、应用效率低等问题，可广泛应用于城市管理、交通...

创建Amazon Redshift数据源

通过创建Amazon Redshift数据源能够实现Dataphin读取Amazon Redshift的业务数据或向Amazon Redshift写入数据。本文为您介绍如何创建Amazon Redshift数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源...

配置数据库的列加密

数据安全中心 DSC（Data Security Center）支持对RDS MySQL、RDS PostgreSQL、PolarDB MySQL、PolarDB PostgreSQL、PolarDB PostgreSQL（兼容Oracle）、PolarDB-X 2.0等数据库类型的数据列进行加密配置，确保数据库中敏感列数据加密后存储...

创建可视化应用

如果您使用的是其他数据源，在创建可视化应用之前，需要先添加数据源。操作步骤登录 DataV控制台。在我的可视化页面中，单击 PC端创建。选择空白画布模板，并单击创建项目。在创建数据大屏对话框中，输入可视化应用名称，单击创建...

创建逻辑模型：应用表

应用表是面向具体业务场景时，用于组织相同时间周期、相同维度的多个原子指标、派生指标或统计粒度的统计数据，为后续的业务查询，OLAP分析，数据分发等提供基础。本文为您介绍如何创建应用表。功能介绍应用表是将一个数据集市或主题域中...

后续指引

介绍：数据迁移实践：数据迁移最佳实践常见问题：数据上传下载常见问题大规模数据迁移 MaxCompute提供MMA（MaxCompute Migration Assist）迁移工具支撑大规模数据迁移。开发与分析数据类型 MaxCompute支持三种数据类型版本，为您介绍各...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

TPC-DS性能测试

MaxCompute适用于TB、PB和EB等各个数量级的数据查询场景，并在业界具有较大的性能优势，本文基于MaxCompute提供的公开数据集及测试工具，以大数据基准测试TPC-DS为例为您验证MaxCompute的性能。当前MaxCompute提供两种不同性能测试方式，...

数据分析作业

本文为您介绍数据分析场景下的常用工具与使用注意事项。使用SQL查询您可以在使用SQL分析连接的查询模式下执行各种SQL命令和授权命令，与在使用客户端（odpscmd）连接的执行结果等效。您还可以切换到分析模式使用Web Excel强大而丰富的...

近实时增量导入

涉及的数据源丰富多样，可能存在数据库、日志系统或者其他消息队列等系统，为了方便用户将数据写入MaxCompute的Delta Table，MaxCompute深度定制开发了开源 Flink Connector工具，联合DataWorks数据集成以及其它数据导入工具，针对高并发、...

PolarDB的高级脱敏

阿里云将 PolarDB MySQL版集群代理（Proxy）的脱敏功能与 DMS 的敏感数据保护功能集成，当 DMS 识别到敏感数据后，会根据脱敏规则自动对数据进行脱敏，并实时同步到PolarDB的Proxy，最后通过应用程序等工具查询数据。高级脱敏功能具有但不...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

调用API

调用方式调用方式适用场景说明安全级别加密签名身份认证应用程序开发、数据采集等。该方式需要在SDK中使用数据服务中的AppKey和AppSecret。具体操作，请参见使用SDK调用API。高简单身份认证一般用于可视化场景，如DataV调用。该...

LLM操作

通过工具调用的监控数据，您可以全面评估大模型应用与外部工具的交互情况，为优化和运维提供数据支持。面板说明调用次数指定时间段内所有工具的调用总次数。调用平均耗时指定时间段内所有工具调用的平均耗时。错误次数指定时间段内...