大数据是指什么-大数据是指什么文档介绍内容-移动阿里云

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加、配置及管理...

什么是数据传输服务DTS

数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加Dataphin成员。...

创建Aliyun HBase数据源

更多信息，请参见什么是云数据库HBase。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见附录：数据源白...

创建ClickHouse数据源

阿里云数据库ClickHouse的更多信息，请参见什么是云数据库ClickHouse。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

RDS术语

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将RDS数据导入...

RDS术语

A AliPG 阿里云支持一系列兼容PostgreSQL的云数据库服务产品，这些云数据库服务采用统一的数据库内核（简称AliPG），AliPG兼容PostgreSQL开源数据库，于2015年正式商用，支持PostgreSQL主流大版本，已稳定运行多年，支撑了大量阿里巴巴集团...

RDS术语

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将RDS数据导入...

RDS术语

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将RDS数据导入...

RDS术语

AliPG 阿里云支持一系列兼容PostgreSQL的云数据库服务产品，这些云数据库服务采用统一的数据库内核（简称AliPG），AliPG兼容PostgreSQL开源数据库，于2015年正式商用，支持PostgreSQL主流大版本，已稳定运行多年，支撑了大量阿里巴巴集团...

功能简介

一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：数据唯一性是指在一个数据集中，没有重复的记录或信息。时效性：数据时效性是指数据集按时、按量的更新程度。规范性：数据规范性是指数据集...

功能简介

一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：数据唯一性是指在一个数据集中，没有重复的记录或信息。时效性：数据时效性是指数据集按时、按量的更新程度。规范性：数据规范性是指数据集...

质量评估

完整性：数据完整性是指一个数据集的特定字段或属性都被赋予了数值。准确性：数据准确性是指数据准确的反映其所建模的“真实世界”的实体。一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

数据归档

RDS MySQL实例数据量较大时，存储成本会随之增高。业务数据通常分为冷数据和热数据，将对象存储（OSS）作为归档冷数据的存储介质，能够大幅降低用户的存储成本。功能简介在开启RDS MySQL通用云盘的数据归档OSS功能后，用户可通过执行下面...

数据源权限管理

本文为您汇总数据源权限管理相关的问题。哪些角色可以管理数据源的权限？是否支持再次分享已被分享的数据源？数据源的创建者是否有权控制该数据源？什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的...

SQL洞察

10]ms 是指3ms<执行耗时≤10ms SQL执行次数占比（10,100]ms 是指10ms<执行耗时≤100ms SQL执行次数占比（0.1,1]s 是指0.1s<执行耗时≤1s SQL执行次数占比>1s 是指1s<执行耗时 SQL执行次数占比说明如果一个实例的执行耗时分布越接近蓝色...

常见问题

离线同步常见问题离线同步任务运维常见问题为什么数据源测试连通性成功，但是离线同步任务执行失败？如何切换数据集成任务执行资源组？脏数据如何排查和定位？如何查看脏数据？如果离线同步传输数据时，脏数据超出限制，是否所有数据都...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

概述

地域和可用区地域是指物理的数据中心。可用区是指在同一地域内，拥有独立电力和网络的物理区域。更多信息请参见阿里云全球基础设施。控制台阿里云提供了简单易用的Web控制台，方便您操作阿里云的各种产品和服务，包括云数据库 PolarDB。...

概述

地域和可用区地域是指物理的数据中心。可用区是指在同一地域内，拥有独立电力和网络的物理区域。更多信息请参见阿里云全球基础设施。控制台阿里云提供了简单易用的Web控制台，方便您操作阿里云的各种产品和服务，包括云数据库 PolarDB。...

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

如何处理Tair集群数据倾斜

说明数据倾斜通常是指大多数据分片节点的性能指标较低，而个别节点的性能指标较高的情况，高或低没有明确的标准。您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高...

如何处理Redis集群数据倾斜

说明数据倾斜通常是指大多数据分片节点的性能指标较低，而个别节点的性能指标较高的情况，高或低没有明确的标准。您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高...

基本概念

DTS 数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，帮助您构建安全、可扩展、高可用的...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

整体架构

湖仓版（3.0）架构如下：数据源数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。存储层+计算层支持自研引擎，羲和计算引擎和玄武存储引擎。新增集成的开源引擎，Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更...

什么是EMR on ECS

EMR on ECS是指EMR在ECS上运行的方式。EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

恢复全量数据

为什么数据库恢复要收费？由于数据是恢复到新实例上，因此需要收取新实例费用，费用详情可在创建实例时查看。说明如临时使用，您可以创建按量付费或Serverless的新实例，把数据迁移到原实例，然后释放新实例。实例创建完成后开始计费。...

导出数据

数据水印：是指将标识信息通过一定方式嵌入到数据中，该水印信息数据使用者难以察觉。说明建议导出的数据超过200条时使用数据水印嵌入。未开通敏感数据保护的数据库实例，不可使用数据水印。文件水印：是指将标识信息通过一定方式嵌入到...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

概述

计算资源计算资源是指带有存储、计算能力的数据处理引擎，通常指 MaxCompute 等。数据探索将业务模型转换为可执行代码下发到计算资源上以完成数据处理任务。说明注册计算资源时，需要用户提供连接信息，不同的计算资源需要提供的连接信息...

常见问题

为什么数据同步的价格要高于数据迁移的价格？因为数据同步具有更多的高级特性，例如支持在线调整同步对象、支持配置MySQL数据库之间的双向数据同步；且数据同步基于内网传输，可以保证更低的网络延时。账户欠费有什么影响？账户欠费的影响...

购买流程

说明数据流量是指客户端从订阅通道中消费的数据总量，按1元/GB计费，不足1GB，按1GB计算。适合数据量较小的订阅实例。选择为半价配置费+1元/GB数据流量费，从2020年12月18日开始，DTS会对该订阅任务额外收取数据流量费用。源实例地域-...

数据库代理常见问题

RDS MySQL数据库代理的连接池功能是指代理的连接池功能，不影响客户端的连接池功能。如果您的客户端已经支持连接池，则可以不使用Proxy的连接池功能。RDS MySQL数据库代理的连接池功能详情，请参见设置连接池。为什么查询时会出现乱码？...