文件保存所有数据-文件保存所有数据文档介绍内容-移动阿里云

使用Azkaban调度MaxCompute

步骤一：准备作业相关文件并压缩为ZIP包准备作业相关数据、脚本文件并保存。基于上文的假设场景，您需要准备的文件如下：源数据。保存为TXT文件。例如emp.txt，包含的数据如下：7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,20 7499,...

编辑脚本

脚本输入/输出配置说明不同类型的脚本需配置的输入输出不同，如下：只有脚本类型为创建联邦表、预处理规则和预处理应用的脚本需配置输出数据，且该类型脚本的输出数据保存在联邦表文件夹中。脚本类型输入配置输出配置创建联邦表 ...

通过文件管理优化性能

Bin-packing的目标是表中的数据量生成大小均衡的数据文件。使用案例测试数据生成：创建10,000个小文件，每个文件中包含10,000行连接数据：（src_ip,src_port,dst_ip,dst_port），基于这些文件创建外部表：conn_rand%spark import spark....

SQL命令管理数据库

您可以执行以下命令，查询SQL Server实例的所有数据库的数据文件和日志文件的路径信息：SELECT db_name(database_id),physical_name FROM sys.master_files;删除数据库执行如下命令，删除数据库：DROP DATABASE[TestDb]需注意，若您在删除...

使用MaxCompute控制台（离线）

仅支持上传一个CSV文件或XLSX文件：CSV文件：最大支持上传5 GB数据，文件里的数据以半角逗号（,）分隔。XLSX文件：最大支持上传100 MB数据。默认仅上传XLSX文件中首个Sheet页的数据，如果有多个Sheet，则其他Sheet的数据将被忽略。阿里云...

上传数据

参数配置说明文件格式您可根据待上传的数据文件类型选择文件格式，当前支持 CSV 和自定义文本文件两种文件格式，其中自定义文本文件支持.txt、.csv 和.log 类型的文件。选择文件单击浏览，根据界面指引选择待上传的文件。选择分隔符...

堆表结构

结构说明 table files 表文件，由一个或多个数据文件组成，文件数量与文件大小有关，超过1 GB就会生成一个新的数据文件。file 数据文件，由多个数据块组成。page 数据块，由多个数据行组成。page header 数据块头，详细信息请参见数据...

实时数据订阅概述

Pull模式：您可以使用开源的Kafka客户端直接订阅数据，服务端会暂时保存数据，您需要对保存的数据设置一个过期时间，如果超过这个时间数据会被删除。具体操作请参见通过Pull模式创建数据订阅通道。Push模式：云原生多模数据库 Lindorm ...

数据库

blk_read_time double precision 在数据库中后端花费在读取数据文件块的时间。单位：毫秒。blk_write_time double precision 在数据库中后端花费在写数据文件块的时间。单位：毫秒。stats_reset timestamp with time zone 统计信息最近一次...

数据库

blk_read_time double precision 在数据库中后端花费在读取数据文件块的时间。单位：毫秒。blk_write_time double precision 在数据库中后端花费在写数据文件块的时间。单位：毫秒。stats_reset timestamp with time zone 统计信息最近一次...

概述

技术架构集群中所有读写节点的数据文件都存放在共享存储（PolarStore）中，全局只读节点通过分布式文件系统（PolarFileSystem）来共享底层存储（PolarStore）中已有的读写节点的数据文件。您可以通过全局只读地址连接全局只读节点，通过...

配置HDFS输出组件

合并策略选择输出数据的线程：合并：则所有数据会合并成一个文件，采用单线程输出，大文件输出速度会受影响。重要合并不支持追加数据。不合并：采用多线程输出，会生成多个文件。导出压缩文件支持是否将文件以压缩文件格式导入目标库，...

添加CSV文件

常见问题 CSV文件格式问题需要将原始Excel文件或其他数据格式的文件另存为CSV文件，不能通过直接修改后缀改变CSV文件格式，会出现错误。DataV控制台兼容问题由于谷歌浏览器对HTTP协议限制，需要使用HTTPS网址打开DataV控制台，再添加CSV...

添加CSV文件

常见问题 CSV文件格式问题需要将原始Excel文件或其他数据格式的文件另存为CSV文件，不能通过直接修改后缀改变CSV文件格式，会出现错误。DataV控制台兼容问题由于谷歌浏览器对HTTP协议限制，需要使用HTTPS网址打开DataV控制台，再添加CSV...

数据上传

DataWorks的数据上传功能支持将本地文件、数据分析的电子表格、OSS文件等数据上传至MaxCompute、EMR Hive、Hologres等引擎进行分析及管理，为您提供便捷的数据传输服务，助力您快速实现数据驱动业务。本文为您介绍如何使用数据上传功能上传...

计费常见问题

本地数据迁移至文件存储 HDFS 版本地数据迁移至文件存储 HDFS 版时，需要配置ECS作为中转节点从公网访问阿里云文件存储 HDFS 版。弹性公网IP对入方向流量不收费，仅对出方向流量收费。即从公网上传数据到文件存储 HDFS 版不会收取...

数据缓存

原始数据文件会根据访问的IO大小切分为Block，Block被存储到本地文件 cache_path/hash(filepath).substr(0,3)/hash(filepath)/offset 中，并在BE节点中保存Block的元信息。当访问相同的远程数据时，SelectDB会检查本地缓存中是否存在该文件...

存储空间占用情况

OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bucket的存储空间。OSS-HDFS文件数据块block占用是OSS空间主要占用部分，您可以通过hdfs du命令查看数据块block的空间占用情况。OSS-HDFS 文件checksum数据 OSS-HDFS支持...

功能特性

数据存储功能集功能功能描述参考文档通用型NAS 容量型通用型NAS的一个细分存储类型，适用于数据库备份、日志存储、Windows用户目录、Linux home目录等成本敏感型且对时延响应要求不高的文件共享业务。通用型NAS 性能型通用型NAS的...

配置自定义区域右下角组件数据

在添加数据对话框中，设置自定义数据源名称（如折线图数据样例），并单击下方区域上传文件，完成文件上传后单击确定即可完成CSV文件数据源的创建。在选择已有数据源下拉框中找到上一步创建的折线图数据样例数据源，选中该数据源...

配置自定义区域右下角组件数据

在添加数据对话框中，设置自定义数据源名称（如折线图数据样例），并单击下方区域上传文件，完成文件上传后单击确定即可完成CSV文件数据源的创建。在选择已有数据源下拉框中找到上一步创建的折线图数据样例数据源，选中该数据源...

使用clickhouse-client导入数据

当您需要将本地文件的数据导入到云数据库ClickHouse时，本文将指导您如何通过clickhouse-client工具进行数据导入，以帮助您快速的完成数据导入。注意事项支持导入到云数据库ClickHouse 的常见文件格式为TabSeparated、...

参数配置常见问题

若您的集群已开启Binlog，您可以通过如下两种方式修改Binlog文件保存时长：若集群版本为 PolarDB MySQL版 5.6，您可以通过修改 loose_expire_logs_hours（取值范围为0~2376，单位为小时，默认值为72）的参数值来设置Binlog的保存时长。...

HDFS与ClickHouse间的数据导入与导出

步骤二：导入数据通过HDFS表引擎导入数据 ClickHouse的HDFS表引擎能够从指定HDFS地址读取特定格式的文件数据，语法如下：CREATE TABLE[IF NOT EXISTS][db.]table_name(name1[type1],name2[type2],.)Engine=HDFS(uri,format);参数描述 db ...

数据安全

DSC 是否会保存您的数据和文件？数据安全中心（DSC）不会保存您的数据和文件。在您授权访问数据源后，DSC 会对数据进行扫描，并仅将扫描的分析结果展示在数据安全中心控制台，供您使用。如何对 DSC 的操作记录进行审计？DSC 的所有操作...

CreateDataFlowTask-创建数据流动任务

Evict：释放 CPFS 上文件的数据块，释放后文件在 CPFS 上只保留元数据，您仍能查询该文件，但文件数据块已清除，不占用 CPFS 上的存储容量。当访问该文件数据时，将再从源端存储按需加载。Inventory：获取 CPFS 上数据流动管理的文件清单，...

步骤六：可视化分析

在 保存数据集对话框中，配置数据集保存参数。参数描述名称填写 flink_dataphin。位置默认为根目录。单击确定。步骤三：创建数据大屏按照下图操作指引，进入数据大屏页面。按照下图操作指引，添加基础排行榜图表至画布中。选择...

步骤六：可视化分析

在 保存数据集对话框中，配置数据集保存参数。参数描述名称填写 flink_dataphin。位置默认为根目录。单击确定。步骤三：创建数据大屏按照下图操作指引，进入数据大屏页面。按照下图操作指引，添加基础排行榜图表至画布中。选择...

概述

配置文件由集群中的所有数据库共享，但每个集群可具有多个配置文件。具有多个数据库访问权限的单个用户在连接到集群中的每个数据库时将使用相同的配置文件。PolarDB PostgreSQL版（兼容Oracle）创建名为default的配置文件，除非指定备选...

常见问题

但您可以参照以下操作，重新购买一个目标文件系统，将旧文件系统中的数据迁移至新文件系统并切换应用到新的文件系统。购买目标存储类型的文件系统。具体操作，请参见创建文件系统。将源文件系统中的数据迁移至目标文件系统中。您可以通过...

管理卡片

单击全部数据集，按数据集过滤已保存的所有卡片中符合当前数据集的卡片。单击全部时间，按时间过滤已保存的所有卡片中符合当前时间范围的卡片。单击按更新日期，按时间或按名称顺序对当前已保存的所有卡片进行排序。在搜索框中输入需要...

OSS Foreign Table数据类型对照表

本文介绍ORC文件、Parquet文件和Avro文件与 AnalyticDB PostgreSQL版的数据类型对照表。ORC文件数据类型对照表 ORC数据类型 AnalyticDB PostgreSQL版数据类型 BOOLEAN bool SHORT int2 INT int4 LONG int8 FLOAT float4 DOUBLE float8 ...

备份恢复概览

基线数据代表了已整合并持久化到硬盘的全部数据总和，它被智能地分割为多个分片，并制作成多个副本，均衡且分散地储存在各 OBServer 的数据文件中，这一过程即我们所称的“数据备份”。增量数据则涵盖了自最新合并时间点以来的所有实时更新...

RDS PostgreSQL CSV或SQL文件恢复到自建数据库

您可以使用RDS PostgreSQL的备份下载功能，将云盘实例的快照备份数据转换成CSV文件或SQL文件导出，然后通过该文件将数据恢复到自建PostgreSQL数据库中。操作步骤本示例以RDS PostgreSQL云盘实例的SQL文件恢复至ECS实例（CentOS 7.8 64位）...

Hive数据源

Hive可以将结构化的数据文件映射为一张表，并提供SQL查询功能。Hive的本质是一个SQL解析引擎，其底层通过MapReduce实现数据分析，使用HDFS存储处理的数据，将HQL转化为MapReduce程序并在Yarn上运行。Hive Reader插件通过访问HiveMetastore...

整体架构

Transaction Table2.0的增量存储和处理架构的特殊设计主要集中在五个模块：数据接入、计算引擎、数据优化服务、元数据管理、数据文件组织，其他部分与MaxCompute通用的架构一致。本文为您介绍Transaction Table2.0的核心架构要点。...

通过外表导入至数仓版

HDFS数据文件格式需为CSV、Parquet或ORC。已创建HDFS集群并在HDFS文件夹中准备需要导入的数据，本文示例中所用文件夹为 hdfs_import_test_data.csv。已在HDFS集群中为 AnalyticDB MySQL 集群配置如下服务访问端口：namenode：用于读写文件...

功能发布记录（2024年）

设置水印文件保存时间。设置是否展示风险识别的数据安全等级。设置告警信息的接收邮件及WebHook地址。以便及时发现并处理潜在安全风险。2024.2.6 所有地域所有DataWorks用户系统配置 2024-01 功能名称功能描述发布时间发布地域使用...

功能特性

查询Schema详情元信息发现元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据，方便分析和计算。具有自动探索文件数据字段及类型、自动映射目录和分区、自动感知新增列及分区、自动对文件进行分组建表的能力。OSS数据源 ...

Parquet

Parquet是Apache开源项目Hadoop支持的一种列存储文件格式，同一份数据以ORC格式和Parquet格式存储时，其数据扫描性能要优于普通文本CSV格式。本文介绍如何在DLA中为Parquet类型的文件创建表。前提条件请参见文档文件格式转换，准备...