阿里云DataWorks配置-阿里云DataWorks配置文档介绍内容-移动阿里云

配置DataWorks平台GDB Reader

本文为您介绍GDB Reader支持的数据类型、字段映射和数据源等参数及配置示例。说明 GDB Reader仅支持使用独享数据集成资源组和自定义资源组。开始配置GDB Reader插件前，请首先配置好数据源，详情请参见配置Graph Database数据源。由于...

配置DataWorks平台GDB Writer

本文为您介绍GDB Writer支持的数据类型、字段映射和数据源等参数及配置示例。说明 GDB Writer仅支持使用独享数据集成资源组，不支持使用默认资源组和自定义资源组。开始配置GDB Writer插件前，请首先配置好数据源，详情请参见配置Graph ...

DataWorks on EMR集群配置最佳实践

DataWorks支持绑定EMR（E-MapReduce）的DataLake（新版数据湖）集群为EMR计算引擎，创建Hive、MR、Presto和Spark SQL等节点，实现EMR任务工作流的配置、定时调度和元数据管理等功能，帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...

Spark常见问题

在DataWorks ODPS Spark节点中选择jar、file、archive资源。说明该方案在任务运行时会上传资源，对于较大资源建议采用方案一进行引用。如何访问VPC？当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务：反向访问方式使用限制...

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

大量数据导出方案

配置ODPS SQL节点，配置完成后单击保存。创建数据同步节点。右键单击业务流程，选择新建节点>数据集成>离线同步。填写节点名称为 sync2mysql，单击确认。选择数据来源以及去向。配置字段映射。配置通道控制。单击保存。将数据同步...

PyODPS DataFrame的代码运行环境

代码示例 from odps import ODPS,options import numpy as np o=ODPS(.)df=o.get_table('pyodps_iris').to_df()coeffs=[0.1,0.2,0.4]def handle(v):import numpy as np return float(np.cosh(v))*sum(coeffs)options.df.supersede_...

采集数据

确认字段映射及通用配置 DataWorks通过配置源端与目标端字段映射关系，实现源端指定字段数据写入目标端指定字段，同时提供并发设置并发读写数据、提供限速功能避免同步对数据库造成影响、提供脏数据影响定义及分布式执行任务等功能。...

使用本地客户端（odpscmd）连接

set.odps.sql.decimal.odps2=true 说明请确保上述信息配置正确，若信息配置错误，会导致项目连接失败。运行MaxCompute客户端 MaxCompute客户端可通过如下方式启动，您可以任选其中一种：方式一：安装包的脚本文件在MaxCompute客户端安装...

StarRocks Connector

StarRocks Connector通过实现External Catalog...创建catalog CREATE EXTERNAL CATALOG odps_catalog PROPERTIES("type"="odps","odps.access.id"="LTAI5tRzd4W8cTyLZKT*","odps.access.key"="gJwKaF3hK9MDAQgbO0zsHCz*","odps.endpoint"=...

Dataphin的pyodps脚本配置了“set odps.sql.mapjoin....

问题描述 Dataphin的pyodps脚本配置了“set odps.sql.mapjoin.memory.max=1024”语句没有起作用。解决方案 Dataphin的pyodps脚本任务不支持set参数；可以在计算源项目中配置。适用于 Dataphin

运行模式

其中 spark.hadoop.odps.access.id、spark.hadoop.odps.access.key 和 spark.hadoop.odps.end.point 无需配置，默认为MaxCompute项目的值（有特殊原因可显式配置，将覆盖默认值）。除此之外，spark-defaults.conf 中的配置需要逐条加到ODPS...

数据动态脱敏

当您期望某些用户只可以查看MaxCompute项目中隐藏关键信息的敏感数据时，您可以开启MaxCompute动态脱敏功能，在数据访问或展示时实时隐藏或...或在DataWorks中配置脱敏场景时，数据范围不要选择目标MaxCompute项目，详情请参见配置脱敏场景。

查询加速（MCQA）

修改客户端安装目录conf下的配置文件odps_config.ini，在配置文件最后一行增加如下命令行。enable_interactive_mode=true-打开MCQA interactive_auto_rerun=true-代表MCQA失败后自动回退到普通作业执行运行客户端安装目录bin下的...

利用MaxCompute External Volume处理非结构化数据

Archive类型除了下载文件，还会在当前工作目录自动解压文件，此时需要用到两个 External Volume相关的参数来指引Spark程序处理External Volume对象包含的OSS数据：说明以下参数需要配置在DataWorks的ODPS Spark节点配置项的参数中或配置...

开发ODPS Spark任务

您无需上传 spark-defaults.conf 文件，而是需将 spark-defaults.conf 中的配置逐条加到ODPS SPARK节点配置项中，例如Executor的数量、内存大小和 spark.hadoop.odps.runtime.end.point 的配置。conf PROP=VALUE Main Class 配置主类名称。...

配置选项

您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期（lifecycle选项）。options.lifecycle=30#使用Tunnel下载string类型时使用bytes（tunnel.string_as_binary选项）。options.tunnel....

Quick BI ODPS数据集配置了加速配置，没有获取到预期...

问题描述 Quick BI ODPS数据集配置了加速配置，没有获取到预期的数据。问题原因 ODPS数据集默认开启了缓存。解决方案可以手动关闭了缓存。适用于 Quick BI 适用v3.4.3及其以下版本

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型，您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发，PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码，操作MaxCompute。前提条件已创建PyODPS 2节点，详情...

MaxCompute（原ODPS）数据源配置

开放数据处理服务MaxCompute（原ODPS）是一个开放的计算平台，如果您要导入到OpenSearch的数据是由MaxCompute平台计算而产生的，则可以在应用中配置MaxCompute源信息，在触发应用索引重建任务后，系统会自动去获取 MaxCompute 表中的全量...

MaxCompute（原ODPS）数据源配置

开放数据处理服务MaxCompute（原ODPS）是一个开放的计算平台，如果您要导入到OpenSearch-行业算法版的数据是由MaxCompute平台计算而产生的，则可以在应用中配置MaxCompute源信息，在触发应用索引重建任务后，系统会自动去获取 MaxCompute ...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力，无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

PyODPS概述

DataWorks：DataWorks的PyODPS节点已安装好了PyODPS，您可以直接在DataWorks的PyODPS节点上开发PyODPS任务并周期性运行，操作指导请参见通过DataWorks使用PyODPS。PAI Notebooks：PAI的Python环境也可安装运行PyODPS，其中PAI的内置镜像均...

时区配置操作

本文为您介绍如何使用SET命令配置MaxCompute Project的时区。支持时区功能的作业如下：MapReduce支持时区功能。Spark支持时区功能。对于提交到MaxCompute计算集群的任务，可自动获取Project的时区。对于通过yarn-client模式启动（例如spark...

开源支持

如何在DataWorks上使用PyODPS，详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API，详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求，加快PyODPS生态成长。服务支持方式：您可通过访问官方...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

PyODPS的去重

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))print iris[['name']].distinct()print iris.distinct('name')print iris.distinct('name','sepallength').head(3)#您可以调用unique对Sequence进行去重操作，...

在本地环境上使用PyODPS

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16}#会根据全局配置添加hints o.execute_sql('SELECT*FROM pyodps_iris')完整示例本地创建 test-pyodps-local.py 文件。写入示例代码。import os from odps...

准备工作

命令示例如下：python test.py 通过DataWorks访问MaxFrame DataWorks为MaxCompute项目提供任务调度能力，且已在PyODPS 3节点内置了MaxFrame，您可以直接使用DataWorks的PyODPS 3节点开发和运行MaxFrame作业。创建PyODPS 3节点。您可以进入...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

项目空间

使用DataWorks：创建好PyODPS 2节点或PyODPS 3节点，详情请参见通过DataWorks使用PyODPS。使用本地PC环境：安装好PyODPS并初始化ODPS入口对象。获取项目空间使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

管理IP白名单

部署DataWorks的设备默认在白名单内，通过DataWorks提交MaxCompute作业不受限制，您无需配置白名单。VPC网络下的IP白名单。设置VPC网络下的IP白名单时，您需要：获取VPC网络的VPC实例ID。配置VPC网络下的Endpoint。详情参见 Endpoint。添加...

Java SDK介绍

您可以通过Maven管理配置新SDK的版本，Maven的配置示例如下。groupId>com.aliyun.odps</groupId><artifactId>odps-sdk-core</artifactId><version>X.X.X-public</version></dependency>说明 0.27.2-public版本及以上才支持...

常见问题

本文为您介绍执行MaxCompute准备工作过程中的常见问题。问题类别常见问题开通MaxCompute DataWorks与MaxCompute的区别是什么？如何区分DataWorks工作空间和MaxCompute项目？...配置详情，请参见配置MaxCompute Studio。

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...