什么是大数据-什么是大数据文档介绍内容-移动阿里云

Time travel

基于Transactional Table 2.0，计算引擎可高效支持 Time travel查询的典型业务场景，即查询历史版本的数据，可用于回溯历史状态的业务数据，或数据出错时，用来恢复历史状态数据进行数据纠正，当然也支持直接使用restore操作恢复到指定的...

DataX Writer

DataX Writer插件实现了写入数据到StarRocks目的表的功能。在底层实现上，DataX Writer通过Stream Load以CSV或JSON格式导入数据至StarRocks。内部将Reader读取的数据进行缓存后批量导入至StarRocks，以提高写入性能。阿里云DataWorks已经...

透明数据加密概述

什么是透明数据加密透明数据加密指对数据文件执行实时I/O加密和解密。通过在数据库层执行静态数据加密，阻止可能的攻击者绕过数据库直接从存储中读取敏感信息。经过数据库身份验证的应用和用户可以继续透明地访问应用数据（不需要更改应用...

DownloadSession

该操作开销较大，Server端会对数据文件创建索引，当文件数很多时，该时间会比较长。同时Server端会返回总Record数，可以根据总Record数启动多个并发同时下载。下载数据：请求方式：异步。调用 openRecordReader 方法，生成RecordReader实例...

表数据格式

数据存储分桶为了进一步优化读写效率，Transactional Table 2.0支持按照BucketIndex对数据进行切分存储，BucketIndex数据列默认复用PK列，bucket数量可通过配置表属性 write.bucket.num 指定，因此对同一张表或分区的数据，写入数据会按PK...

创建Aliyun HBase数据源

更多信息，请参见 什么是云数据库HBase。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见附录：数据源白...

Trino概述

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

什么是数据传输服务DTS

数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加、配置及管理...

创建MongoDB数据源

更多阿里云MongoDB信息，请参见云数据库MongoDB-什么是云数据库MongoDB版。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加Dataphin成员。...

Delta Lake概述

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

Insert Into

StarRocks中INSERT INTO语句的使用方式和MySQL等数据库中INSERT INTO语句的使用方式类似，但在StarRocks中，所有的数据写入都是一个独立的导入作业，所以StarRocks中将INSERT INTO作为一种导入方式介绍。本文为您介绍Insert Into导入的使用...

创建ClickHouse数据源

阿里云数据库ClickHouse的更多信息，请参见 什么是云数据库ClickHouse。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体...

实时同步能力说明

DataWorks为您提供的实时数据同步功能，方便您使用单表或整库同步方式，将源端数据库中部分或全部表的数据变化实时同步至目标数据库中，实现目标库实时保持和源库的数据对应。使用限制实时同步不支持在数据开发界面运行任务，您需要保存、...

Hive元数据说明

另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与阿里云其他计算产品（例如MaxCompute、Databricks和Hologres等）无缝对接，可以扩展更丰富的计算场景，DLF详情请参见产品简介。该元数据类型相比自建RDS和内置MySQL两种方式的...

增量查询

Clustering和Compaction操作都会产生新的数据文件，但并没有增加新的逻辑数据行，只是把原有的记录进行了组织编排优化，因此新产生的数据文件中的记录不应该作为新增数据重复输出，为此，增量查询做了专门设计优化，会剔除掉这些记录，也...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

ODPS-0123091:Illegal type cast 错误1：in function cast,value 'xx' cannot be casted from yy to zz 错误信息示例 ODPS-0123091:Illegal type cast-in function cast,value 'xx' cannot be casted from YY to ZZ 问题描述执行数据类型...

工作空间概述

后续：开始数据开发创建工作空间并分配空间成员角色权限后，您可根据各角色定义的权限前往数据开发DataStudio模块开始数据开发工作，数据开发模块的入门教程详情请参见：数据开发：开发者。相关文档在阅读工作空间的概述后，若您想创建...

Iceberg连接器

Iceberg是一种开放的数据湖表格式，使用Iceberg连接器可以用来查询Iceberg格式的数据文件。背景信息 Iceberg的详细信息，请参见 Iceberg概述。本文为您介绍Iceberg连接器相关的内容和操作，具体如下：配置Iceberg连接器示例：查询Iceberg...

NEGATIVE

分区

分区表是指拥有分区空间的表，即将表数据按照某个列或多个列进行划分，从而将表中的数据分散存储在不同的物理位置上。合理设计和使用分区，可以提高查询性能、简化数据管理，并支持更灵活的数据访问和操作。概述分区可以理解为分类，通过...