DataWorks 提供一站式大数据开发与治理平台,涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力,支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成:全领域数据汇聚 DataWorks的数据...
数据订阅功能可以帮助您获取数据库的实时增量数据,您可以根据自身业务需求自由消费增量数据,并写入目标端,实现各类业务场景,例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制 限制项 说明 网络...
数据大小 云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB,Value 最大不超过 1 MB,过大的数据不适合存储。事务支持 云数据库 Memcache 版不支持事务,有事务性要求的数据不适合写入,而应该直接写入数据库。使用场景 当...
阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据...
一级菜单 二级菜单 说明 元数据采集 采集概览 元数据支持丰富的采集源类型,如传统数据库MySQL、Oracle,大数据存储Hologres等,可一览不同数据源类型已创建的采集任务、已创建的数据源、采集对象类型和支持的版本。采集任务 通过采集适配...
通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...
云数据库 SelectDB 版 支持多样化的数据导入方式,涵盖原生接口与生态工具,满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议 阿里云生态源数据:DTS、DataWorks 非阿里云生态...
DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定后您可以创建计算任务并进行周期调度。使用...
使用场景 在EMR控制台的节点组配置中,当 附录:ECS实例类型 选择 大数据型、本地SSD 时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。说明 本地盘仅适用于核心节点(Core)或任务节点(Task)。本地盘有...
数据集成 MaxCompute可以通过数据集成功能加载不同数据源(例如MySQL数据库)的数据,也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上,您可以直接在DataWorks上配置MaxCompute数据源并读写...
数据订阅功能可以帮助您获取数据库的实时增量数据,您可以根据自身业务需求自由消费增量数据,并写入目标端,实现各类业务场景,例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制 限制项 说明 网络...
通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明 仅支持具备 新建数据源权限点 的自定义全局角色和 超级管理员、数据源管理员、板块架构师、项目管理员...
说明 通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 JDBC URL Presto的连接地址...
通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明 仅支持具备 新建数据源权限点 的自定义全局角色和 超级管理员、数据源管理员、板块架构师、项目管理员...
一级菜单 二级菜单 说明 元数据采集 采集概览 元数据支持丰富的采集源类型,如传统数据库MySQL、Oracle,大数据存储 Hive、Hologres等,可一览不同数据源类型已创建的采集任务、已创建的数据源、采集对象类型和支持的版本。采集任务 通过...
要求数据必须以 插入或覆写数据(INSERT INTO|INSERT OVERWRITE)的形式一次性写入,在写入完成后,如果需要再进一步追加数据,则需要将表中原有的数据全部读取,与新增数据 并集(UNION)之后再次写入,数据追加代价非常大,效率很低。...
说明 通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 JDBC URL Presto的连接地址...
阿里云EMR凭借弹性扩展的计算集群、多源异构数据融合治理以及实时流批一体处理等卓越能力,已经广泛应用于金融风控、电商精准营销、物联网时序数据处理等多个领域。本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型...
数据源支持情况 数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、...
功能概述 SQL查询 SQL查询是使用标准的SQL语句,来查询和分析存储在MaxCompute中的大数据,详情请参见 SQL查询(旧版)。您可以通过编写SQL语句,对有查询权限的数据源进行快速的数据查询与分析操作,详情请参见 SQL查询(旧版)。...
通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...
通过创建Lindorm(计算引擎)数据源能够实现Dataphin读取Lindorm(计算引擎)的业务数据或向Lindorm(计算引擎)写入数据。本文为您介绍如何创建Lindorm(计算引擎)数据源。背景信息 Lindorm(计算引擎)是阿里云推出的自研数据库,提供宽...
通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase,是低成本、高扩展、云智能的大数据NoSQL。...
规则名称 规则类型 规则等级 规则配置 非工作时间查询大数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10,000时命中该规则。周一至周五:19:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询...
本文介绍敏感数据扫描和识别的常见问题及解决方法。数据扫描会影响我的数据库性能吗?数据安全中心DSC(Data Security Center)采用全量扫描、增量扫描和定时扫描策略扫描您的数据库。全量扫描会对您的数据库性能产生较小的影响,不会影响...
扫描说明 扫描限制 为了避免数据源中文件或表过大影响整体扫描进度,数据安全中心对可以扫描的文件大小或表的字段大小做了限制,请您在进行敏感数据扫描前了解以下规则:结构化数据(RDS MySQL、RDS PostgreSQL、PolarDB等)、大数据...
RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版(兼容Oracle)背景信息 功能测试或者性能测试时,往往需要准备测试数据,通常有以下几种方法:手工编写:效率低,不适用于大数据量场景。维护生成测试数据脚本:成...
数据源配置 基于业务数据源是否区分生产数据源和开发数据源:如果业务数据源区分生产数据源和开发数据源,则选择 生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源,则选择 生产数据源。标签 您可以根据标签给数据源进行分类...
通过创建Lindorm(计算引擎)数据源能够实现Dataphin读取Lindorm(计算引擎)的业务数据或向Lindorm(计算引擎)写入数据。本文为您介绍如何创建Lindorm(计算引擎)数据源。背景信息 Lindorm(计算引擎)是阿里云推出的自研数据库,提供宽...
新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据,及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中,您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...
PARQUET:列式存储格式,压缩率高,适合大数据分析。ORC:优化的列式存储格式,性能优异,支持复杂数据类型。AVRO:支持模式演化的二进制格式,适合动态数据结构。JSON:支持嵌套结构,适合半结构化数据。SELE_DEFINE:允许用户自定义序列...
时序数据库(Time Series Database,TSDB)是一种专门设计用于高效存储和处理时间序列数据的数据库系统。时间序列数据是指按时间顺序排列的数据点序列,每个数据点通常包含一个时间戳和一个或多个值(度量Metrics)。这类数据广泛存在于物...
在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。...
通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件 若您需在Dataphin中创建基于阿里云产品的数据源,创建数据源前,需确保Dataphin的IP...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...
但这两种方法都有不足之处:第一种方法需要在MaxCompute系统外部做一次中转,如果OSS数据量太大,还需要考虑如何并发来加速,无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限,还需要开发者自己控制作业...
数据源配置 基于业务数据源是否区分生产数据源和开发数据源:如果业务数据源区分生产数据源和开发数据源,则选择 生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源,则选择 生产数据源。标签 您可以根据标签给数据源进行分类...
查看上传记录 提交上传后,若数据量较大,需要耗费一些时间,您无需在提交页面一直等待,可后续通过单击 数据上传 页面右上角的 查看上传记录 查看通过该功能上传数据的详情记录。说明 通过该页面的 查看上传记录 查询到的记录详情也包含...
数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...
数据灾备(原DBS)关系型数据库 阿里云数据库 ECS上的自建数据库、线下数据库、其他云数据库 NoSQL数据库 MongoDB Redis 逻辑备份支持的数据库 MySQL MariaDB PolarDB:PolarDB PostgreSQL版、PolarDB MySQL版、PolarDB PostgreSQL版(兼容...