大数据的文件如何读取-大数据的文件如何读取文档介绍内容-移动阿里云

配置GBase 8a输入组件

批量条数每个并发SQL语句读取数据的条数。输入过滤填写输入字段的过滤信息，例如ds=${bizdate}。输入过滤适用于以下两种场景：固定的某一部分数据。参数过滤。输出字段输出字段区域展示了已选中表的所有字段。如果不需要将某些字段输出...

概述

Federated表结构如下：当在本地 PolarDB MySQL版集群的Federated表上执行SQL时，通常会从本地 PolarDB MySQL版集群插入数据文件，更新或删除数据文件的操作被发送到远程 PolarDB MySQL版集群或社区MySQL服务器执行，在远程集群或服务器...

添加TableStore数据源

如果值为正序（FORWARD），则起始主键必须小于结束主键，返回的行按照主键由小到大的顺序进行排列。如果值为逆序（BACKWARD），则起始主键必须大于结束主键，返回的行按照主键由大到小的顺序进行排列。例如同一表中有两个主键A和B，A。如...

添加TableStore数据源

如果值为正序（FORWARD），则起始主键必须小于结束主键，返回的行按照主键由小到大的顺序进行排列。如果值为逆序（BACKWARD），则起始主键必须大于结束主键，返回的行按照主键由大到小的顺序进行排列。例如同一表中有两个主键A和B，A。如...

创建快照

数据库文件系统快照基于云盘快照，它是一种便捷高效的数据容灾手段，用于对文件系统的数据进行备份。前提条件进行快照创建时，数据库文件系统必须处于已挂载或待挂载状态。说明如果文件系统处于待挂载的状态，则需要保证文件系统有...

Hudi数据源

本文介绍云数据库 SelectDB 版与Hudi数据源进行对接使用的流程，帮助您对Hudi...JavaScanTime：Java SDK读取数据的时间。FillBlockTime：Java数据拷贝为C++数据的时间。GetRecordReaderTime：调用Java SDK并创建Hudi Record Reader的时间。

准备工作

将数据文件（点文件和边文件）导入至图数据库GDB实例前，您需要先准备好需要导入的数据文件、获取导入过程中使用到的实例信息等，使导入操作更加流畅。前提条件已创建图数据库GDB实例，创建方法请参见创建实例。已创建Bucket，创建方法请...

云盘备份数据导入至AnalyticDB MySQL版

注意事项 AnalyticDB MySQL版仅支持CSV、Parquet两种数据文件导入，因此使用RDS MySQL下载备份功能时，请选择下载格式为CSV或Parquet。准备工作通过以下步骤在对象存储（Object Storage Service，简称OSS）中创建存储 AnalyticDB ...

导出数据

待系统执行完成后，您可以在工单详情页下方单击执行导出，选择导出数据 的文件类型、字符集等，并单击确定执行。单击下载导出文件，文件将下载至本地。导出整个数据库支持导出整个数据库的表结构、数据、以及存储过程、函数、触发器...

如何将本地.rdb文件恢复到云数据库 Redis 版实例

修改RDB文件的文件名，使其与Redis配置文件（redis.conf）中指定的文件名（dbfilename）相同。重启自建的Redis服务。查询Redis数据，确认RDB文件的数据已恢复到自建Redis数据库。通过DTS将自建Redis数据库的数据迁移到云数据库 Redis 版 ...

引擎功能

时序数据高效读写 Lindorm时序引擎提供高效的并发读写，支持每秒百万数据点的数据读取及千万数据点的写入能力。数据写入支持以下方式进行数据写入：使用SQL的INSERT语句（推荐使用JDBC）。兼容InfluxDB的写入Line Protocol。兼容OpenTSDB...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

增量查询

Clustering和Compaction操作都会产生新的数据文件，但并没有增加新的逻辑数据行，只是把原有的记录进行了组织编排优化，因此新产生的数据文件中的记录不应该作为新增数据重复输出，为此，增量查询做了专门设计优化，会剔除掉这些记录，也...

归档为CSV或ORC格式

说明如果OSS对象存储中存在与归档的数据文件名称冲突的数据文件，系统会报文件已经存在的错误。例如：Target file for archived table exists on oss.您可以在以上三个语法中通过添加 FORCE 关键字来覆盖OSS对象存储中已经存在的数据文件...

数据脱敏

数据安全中心（Data Security Center，简称DSC）支持静态脱敏和动态脱敏，可以脱敏数据库中的敏感数据。本文介绍如何使用静态脱敏和动态脱敏。脱敏方式静态脱敏：通过新增脱敏任务，使用脱敏算法对敏感数据进行遮盖、加密或替换，并将脱敏...

CSV

本文介绍如何在DLA中为不同编码格式的CSV类型的数据文件创建表，以及如何通过OpenCSVSerDe处理CSV文件中特殊格式的数据。创建数据文件表之前，您需要先创建OSS Schema，本文示例中所有数据文件表均使用以下OSS Schema。CREATE SCHEMA dla_...

使用curl命令导入数据文件

本文介绍使用curl命令将数据文件从对象存储OSS的Bucket中导入至图数据库GDB实例、查看导入任务和取消导入任务的方法。前提条件已创建目标图数据库GDB实例，创建方法请参见创建主实例。说明如果Bucket是在对象存储控制台创建，请确保图...

近实时增量导入

如上图所示：数据导入工具内部会集成MaxCompute数据通道服务Tunnel提供的SDK Client，支持分钟级高并发写入数据到Tunnel Server，由它把数据并发写入到每个Bucket的数据文件中。写入并发度可通过表属性 write.bucket.num 来配置，因此写入...

事务管理

数据文件版本管理每次事务操作会生成一批新的数据文件，这些数据文件会绑定对应的事务版本，主要包含两个属性：时间版本：Timestamp类型，等效于事务Commit时间，只有由用户触发并且存在逻辑数据变更的操作才会产生新的时间版本，...

导出至HDFS

方式三：INSERT OVERWRITE PARTITION 与 INSERT INTO PARTITION 使用方法相同，但使用 INSERT OVERWRITE PARTITION 时，会覆盖掉本次执行中涉及到的目标分区中之前已有的数据文件，对于没有新数据写入的分区，则不会清除其中的数据文件。...

通过元数据发现导入至湖仓版

格式解析器格式解析器会读取数据文件内容，从而确定文件的数据格式。默认为自动解析，即按照顺序调用所有内置解析器。您可以根据OSS路径中文件的格式，选择与文件格式相同的格式解析器。重要选择的格式解析器类型和文件格式不一致时，会...

数据加密

当云数据库MongoDB实例开启TDE功能后，新创建的数据库或集合中的数据在写入到任何设备（例如磁盘、SSD、PCIe卡）、服务（例如对象存储OSS）前都会进行加密，因此实例中对应的数据文件和备份文件都是以密文形式存在的。TDE的设置方法请参见 ...

数据归档至专属存储

文件合并功能可实现对单次执行归档的数据文件进行重组排列（例如将两个文件合并为一个文件），合并后可以提升本次归档数据的查询性能。费用说明该功能免费使用。注意事项已归档数据文件合并后，会额外增加存储量（已归档数据量的0.5~1倍...

查询诊断

您也可以根据需求选择按照占用内存、磁盘读取数据量、磁盘读取数据耗时、网络传输数据量、网络传输数据耗时对算子排序以及计算整体比例。算子统计信息介绍如下：名称说明算子名称算子名称与编号，在计划树中唯一。类型ID 算子类型编号。...

配置IBM DB2输入组件

读取数据时，根据配置的切分键字段进行数据分片，实现并发读取，可以提升数据同步效率。批量条数配置数据同步时，每条并发SQL语句读取数据的条数，默认的批量条数为1024。输入过滤配置抽取数据的筛选条件，配置说明如下：配置固定值，...

配置IBM DB2输入组件

读取数据时，根据配置的切分键字段进行数据分片，实现并发读取，可以提升数据同步效率。批量条数配置数据同步时，每条并发SQL语句读取数据的条数，默认的批量条数为1024。输入过滤配置抽取数据的筛选条件，配置说明如下：配置固定值，...

新建离线物理表

参数描述上传文件单击选择文件，上传需导入的数据文件。仅支持.txt,.csv类型的文件，文件不超过10MB。分隔符数据的分隔符，支持逗号（，）、水平制表符（\t）、竖划线（｜）、斜线（/）。也可以输入指定其他分隔符。字符集编码选择...

新建离线物理表

参数描述上传文件单击选择文件，上传需导入的数据文件。仅支持.txt,.csv类型的文件，文件不超过10MB。分隔符数据的分隔符，支持逗号（，）、水平制表符（\t）、竖划线（｜）、斜线（/）。也可以输入指定其他分隔符。字符集编码选择...

配置AnalyticDB for PostgreSQL输入组件

表选择数据同步的来源表：如果来源表量选择了单表，在下拉列表中选择读取数据的表。如果来源表选择了多表，则按照下图操作指引，添加读取数据的多个表。在①处配置筛选多表的表达式，连续多个表的格式如 table[A-Z]、table_[01-05]...

配置AnalyticDB for PostgreSQL输入组件

表选择数据同步的来源表：如果来源表量选择了单表，在下拉列表中选择读取数据的表。如果来源表选择了多表，则按照下图操作指引，添加读取数据的多个表。在①处配置筛选多表的表达式，连续多个表的格式如 table[A-Z]、table_[01-05]...

导入数据至维表

创建完成维表后，您可以在维表中直接写入数据，也可以导入电子表格、本地CSV文件和Excel文件的数据至维表，为后续数据分析做准备。前提条件已创建完成一个维表，详情请参见创建维表。操作步骤在维表页面，单击全部维表下相应的文件...

自动故障转移和读写分离

read-write：只会连接到支持读写的数据库，即从第一个数据库开始尝试连接，如果连接后发现不支持读写，则会断开连接，然后尝试连接第二个数据库，以此类推，直至连接到支持读写的数据库。更多libpq的使用方法和参数说明请参见 Connection ...

配置AnalyticDB for MySQL 3.0输入组件

表选择数据同步的来源表：如果来源表量选择了单表，在下拉列表中选择读取数据的表。如果来源表选择了多表，则按照下图操作指引，添加读取数据的多个表。在①处配置筛选多表的表达式，连续多个表的格式如 table[A-Z]、table_[01-05]...

配置AnalyticDB for MySQL 3.0输入组件

表选择数据同步的来源表：如果来源表量选择了单表，在下拉列表中选择读取数据的表。如果来源表选择了多表，则按照下图操作指引，添加读取数据的多个表。在①处配置筛选多表的表达式，连续多个表的格式如 table[A-Z]、table_[01-05]...

Oracle永久增量备份

背景信息 Oracle永久增量备份的原理如下：执行完整全量备份（Full Backup），即RMAN Level 0级备份，将备份Oracle所有的数据文件，同时备份归档日志，参数文件和控制文件。增量合成备份（Synthetic Backup）：生成快照并挂载至本地：生成上...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

读写分离

但是由于RDS主实例与只读实例之间数据的同步存在着毫秒级别的延迟，如果在主库中变更以后需要马上读取变更的数据，则需要保证将读取数据的SQL下发到主实例中。针对这种需求，PolarDB-X 1.0 提供了读写分离自定义HINT，指定将SQL下发到主...

配置SAP HANA输入组件

批量条数每个并发SQL语句读取数据的条数。默认的批量条数为1024。输入过滤填写输入字段的过滤信息，例如 ds=${bizdate}。输入过滤适用于以下两种场景：固定的某一部分数据。参数过滤。输出字段输出字段区域展示了已选中表的所有字段。...

配置Log Service输入组件

同步Log Service数据源的数据至其他数据源的场景中，您需要先配置Log Service输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置Log Service输入组件。在开始执行操作前，请确认您已完成以下操作：已创建Log Service...

配置Log Service输入组件

同步Log Service数据源的数据至其他数据源的场景中，您需要先配置Log Service输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置Log Service输入组件。在开始执行操作前，请确认您已完成以下操作：已创建Log Service...