如何使用大数据-如何使用大数据文档介绍内容-移动阿里云

多路输出（MULTI INSERT）

使用示例示例1：将表 sale_detail 的数据插入到表 sale_detail_multi 的2010年及2011年中国的销售记录中。命令示例如下：创建表sale_detail_multi。create table sale_detail_multi like sale_detail;开启全表扫描，仅此Session有效。将表...

TABLESAMPLE采样

当表不是聚簇表时，col_name 与 rand()函数必须二选一，当使用 rand()函数时表示对输入的数据随机进行分桶。ON 语句中最多支持指定10个列。指定采样百分比采样。TABLESAMPLE(<n>PERCENT)其中 n 为采样百分比，取其中 n%的数据，即采样返回...

Tunnel命令

当您需要在本地环境与MaxCompute之间传输大量的数据时，MaxCompute提供Tunnel功能支持上传下载数据，使用Tunnel命令可以实现批量或增量数据的高效上传、下载，以提高数据传输效率和可靠性。本文为您介绍Tunnel上传下载命令的详细说明。...

Kafka数据源

本文介绍如何使用Kafka数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING kafka OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);配置参数说明 ...

OSS/OSS-HDFS概述

特性通过JindoSDK使用OSS和OSS-HDFS的特性对比如下：场景特性 OSS OSS-HDFS 大数据场景（Hadoop）支持目录、文件语义和操作支持支持添加目录、文件权限不支持支持目录原子性、rename性能支持，但性能不佳支持，毫秒级通过...

聚类分片

适用场景聚类分片方式适用于数据量非常大的情况（十亿数据量级），特别是query数据量极大的场景。适用于构建一次索引，后续多次查询该索引（即一次build，多次seek）的场景。说明聚类索引分片划分方法需要对doc集合进行kmeans聚类，产生...

购买与使用独享数据传输服务资源组

当您在MaxCompute中需要对大规模数据进行传输且对传输稳定性和延迟有要求时，您可以使用独享数据传输服务资源组。独享数据传输服务资源组可以提供更高的数据传输速度和更好的网络条件，以减少传输时间并提高效率。本文为您介绍如何购买、...

TableStore数据源

本文介绍如何使用TableStore数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING tablestore OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建TableStore表时，无需显式定义表的...

SETPROJECT

部分UDF在内存计算、排序的数据量比较大时，会报内存溢出错误，这时候可以调大该参数，但该方法只能暂时缓解，您需要从业务上去优化UDF代码。取值范围：256 MiB~12288 MiB。默认值为1024 MiB。UDF SQL Session odps.sql.udf.timeout 设置...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

MaxCompute JSON类型使用指南

MaxCompute当前支持JSON数据类型，提高了表中带有JSON类型数据的计算和分析的性能，本文为您介绍JSON类型的使用方法。JSON类型简介背景信息半结构化数据介于结构和非结构化数据之间，数据中有一定的Schema，但是Schema灵活，没有强约束，...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

Paimon与Hive集成

使用限制 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本的集群，支持在Hive中查询Paimon中的数据。操作步骤查询Hive Catalog与DLF Catalog中的表。其他服务通过Hive Catalog同步元数据到Hive MetaStore后，可以在Hive中直接查询Hive ...

Paimon与Trino集成

使用限制 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本的集群，支持在Trino中查询Paimon中的数据。操作步骤指定warehouse路径。Paimon将数据和元数据都保存在文件系统（例如，HDFS）或对象存储（例如，OSS）中，存储的根路径由warehouse...

RestAPI Reader最佳实践

数据集成RestAPI Reader插件提供了读取RESTful接口数据的能力，通过配置HTTP请求地址，可获取RestAPI类型的数据源数据（例如获取时间范围内的数据、获取分页数据、循环请求参数获取数据等），并转换为数据集成支持的数据类型，传递给下游...

PostgreSQL节点

如果仅创建了一个PostgreSQL数据源，则默认使用该数据源进行开发操作。说明 PostgreSQL节点仅支持使用JDBC连接串方式创建的PostgreSQL数据源。开发SQL代码：简单示例在PostgreSQL节点的代码编辑区域编写要执行的任务。示例查询PostgreSQL...

SYM_ENCRYPT

在数据解密时，项目管理员不要直接将密钥（表）授权给数据使用方，而是应该创建一个（secure）view，在view内部通过访问解密表并调用解密函数，完成数据解密。通过控制view权限来控制数据使用方对数据明文的访问。同时在view中不包含密钥...

MULTI INSERT

使用示例示例1：将表 sale_detail 的数据插入到表 sale_detail_multi 的2010年及2011年中国的销售记录中。命令示例如下：创建表sale_detail_multi。create table sale_detail_multi like sale_detail;开启全表扫描，仅此Session有效。将表...

使用JindoFS作为HBase的底层存储

使用TableSnapshotInputFormat读取Hbase数据时，需要您在阿里云E-MapReduce控制台，HDFS服务的配置页面，在 core-site 页签，修改 fs.defaultFS 的参数值为jfs前缀的根目录。例如，修改 fs.defaultFS 的参数值为上述步骤中配置的 jfs:/...

数据管理策略

策略名称策略说明 AR 数据仅在OSS上有一个备份，并且使用OSS归档存储（Archive）类型存储。IA 数据仅在OSS上有一个备份，并且使用OSS低频访问（Infrequent Access）类型存储。COLD 数据仅在OSS上有一个备份，并且使用OSS标准存储...

其它操作

本文为您介绍使用MaxCompute SQL开发过程中会使用的其它常用命令。计量预估基于一条SQL作业的输入数据量大小、UDF个数以及SQL复杂等级估算作业执行费用。需要注意的是，如果UDF涉及分区裁剪，由于无法确定最终会扫描多少个分区，该场景下...

使用公共资源组

独享调度资源组计费说明：包年包月独享数据集成资源组在数据集成任务高并发执行且无法错峰运行的情况下，企业需要专有的计算资源组来保障数据快速、稳定地传输时，建议使用DataWorks的独享数据集成资源组。独享数据集成资源组计费说明：...

Catalog概述

使用External Catalog查询数据时，StarRocks会用到外部数据源的两个组件：元数据服务：用于将元数据暴露出来供StarRocks的FE进行查询规划。存储系统：用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成...

QueryPublicModelEngine

调用QueryPublicModelEngine接口，使用FML语句查询数据建模引擎的信息。每次调用该接口均需使用FML语句请求获取查询信息。除了数仓分层、业务过程和数据域查询外，其他引擎信息查询均可使用分页查询方式。您可以在FML语句结尾增加offset ...

MySQL节点

您可以通过创建MySQL节点，直接使用SQL语句对目标MySQL数据源进行数据开发。本文为您介绍如何创建并使用MySQL节点。前提条件 MySQL节点仅支持使用独享调度资源组，独享调度资源组的使用请参考文档：新增和使用独享调度资源组。已通过连接串...

DataWorks On Hologres使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

DELETE

使用示例示例1：创建非分区表acid_delete，并导入数据，执行 delete 操作删除满足指定条件的行数据。命令示例如下：创建Transactional表acid_delete。create table if not exists acid_delete(id bigint)tblproperties("transactional"=...

使用Tunnel命令或Tunnel SDK

使用Tunnel SDK上传数据的使用案例请参见：简单上传示例多线程上传示例 BufferedWriter上传示例 BufferedWriter多线程上传示例复杂数据类型上传下载示例使用Tunnel SDK上传数据的具体操作请参考 Tunnel SDK。使用Streaming Tunnel SDK...

客户案例

解决方案玩物得志基于阿里云DataWorks+MaxCompute框架搭建大数据平台，使用其核心存储、计算等组件、上层可视化及业务查询能力，在开源方案的基础上进行了二次开发。解决方案架构如下。详细案例信息，请参见玩物得志案例。互联网社交案例...

INSERT INTO|OVERWRITE

使用限制执行 insert into 和 insert overwrite 操作更新表或静态分区数据的使用限制如下：insert into：不支持向聚簇表中追加数据。insert overwrite：不支持指定插入列，只能使用 insert into。例如 create table t(a string,b string);...

场景：配置分库分表离线同步任务

[/分库分表的Table列表1"tb1"]},{"datasource":"datasourceName2",/分库分表的数据源2"table":[/分库分表的Table列表2"tb2","tb3"]}],"useSpecialSecret":true,/各个数据源使用各自的密码"where":"","splitPk":"id","encoding":"UTF-8"},...

内建函数概述

MaxCompute自身预置了诸多函数，可以满足大部分业务场景的数据处理需求。本文为您介绍MaxCompute提供的函数类型及函数使用相关说明。背景信息 MaxCompute预置的函数类型如下。函数类型说明日期与时间函数支持处理DATE、DATETIME、...

数据建模：智能数据建模

智能数据建模是阿里云DataWorks自主研发的智能数据建模产品，沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践，包含数仓规划、数据标准、维度建模及数据指标四大模块，帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的...