阿里云DataWorks配置

_相关内容

配置DataWorks平台GDB Reader

本文为您介绍GDB Reader支持的数据类型、字段映射和数据源等参数及配置示例。说明 GDB Reader仅支持使用 独享数据集成资源组 和 自定义资源组。开始配置GDB Reader插件前,请首先配置好数据源,详情请参见 配置Graph Database数据源。由于...

配置DataWorks平台GDB Writer

本文为您介绍GDB Writer支持的数据类型、字段映射和数据源等参数及配置示例。说明 GDB Writer仅支持使用 独享数据集成资源组,不支持使用默认资源组和 自定义资源组。开始配置GDB Writer插件前,请首先配置好数据源,详情请参见 配置Graph ...

DataWorks on EMR集群配置最佳实践

DataWorks支持绑定EMR(E-MapReduce)的DataLake(新版数据湖)集群为EMR计算引擎,创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、定时调度和元数据管理等功能,帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...

Spark常见问题

DataWorks ODPS Spark节点中选择jar、file、archive资源。说明 该方案在任务运行时会上传资源,对于较大资源建议采用方案一进行引用。如何访问VPC?当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务:反向访问方式 使用限制...

搭建Windows开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

大量数据导出方案

配置ODPS SQL节点,配置完成后单击 保存。创建数据同步节点。右键单击业务流程,选择 新建节点>数据集成>离线同步。填写 节点名称 为 sync2mysql,单击 确认。选择数据来源以及去向。配置字段映射。配置通道控制。单击 保存。将数据同步...

PyODPS DataFrame的代码运行环境

代码示例 from odps import ODPS,options import numpy as np o=ODPS(.)df=o.get_table('pyodps_iris').to_df()coeffs=[0.1,0.2,0.4]def handle(v):import numpy as np return float(np.cosh(v))*sum(coeffs)options.df.supersede_...

采集数据

确认字段映射及通用配置 DataWorks通过配置源端与目标端字段映射关系,实现源端指定字段数据写入目标端指定字段,同时提供并发设置并发读写数据、提供限速功能避免同步对数据库造成影响、提供脏数据影响定义及分布式执行任务等功能。...

使用本地客户端(odpscmd)连接

set.odps.sql.decimal.odps2=true 说明 请确保上述信息配置正确,若信息配置错误,会导致项目连接失败。运行MaxCompute客户端 MaxCompute客户端可通过如下方式启动,您可以任选其中一种:方式一:安装包的脚本文件 在MaxCompute客户端安装...

StarRocks Connector

StarRocks Connector通过实现External Catalog...创建catalog CREATE EXTERNAL CATALOG odps_catalog PROPERTIES("type"="odps","odps.access.id"="LTAI5tRzd4W8cTyLZKT*","odps.access.key"="gJwKaF3hK9MDAQgbO0zsHCz*","odps.endpoint"=...

Dataphin的pyodps脚本配置了“set odps.sql.mapjoin....

问题描述 Dataphin的pyodps脚本配置了“set odps.sql.mapjoin.memory.max=1024”语句没有起作用。解决方案 Dataphin的pyodps脚本任务不支持set参数;可以在计算源项目中配置。适用于 Dataphin

运行模式

其中 spark.hadoop.odps.access.id、spark.hadoop.odps.access.key 和 spark.hadoop.odps.end.point 无需配置,默认为MaxCompute项目的值(有特殊原因可显式配置,将覆盖默认值)。除此之外,spark-defaults.conf 中的配置需要逐条加到ODPS...

数据动态脱敏

当您期望某些用户只可以查看MaxCompute项目中隐藏关键信息的敏感数据时,您可以开启MaxCompute动态脱敏功能,在数据访问或展示时实时隐藏或...或在DataWorks配置脱敏场景时,数据范围不要选择目标MaxCompute项目,详情请参见 配置脱敏场景。

查询加速(MCQA)

修改客户端安装目录conf下的配置文件odps_config.ini,在配置文件最后一行增加如下命令行。enable_interactive_mode=true-打开MCQA interactive_auto_rerun=true-代表MCQA失败后自动回退到普通作业执行 运行客户端安装目录bin下的...

利用MaxCompute External Volume处理非结构化数据

Archive类型除了下载文件,还会在当前工作目录自动解压文件,此时需要用到两个 External Volume相关的参数来指引Spark程序处理External Volume对象包含的OSS数据:说明 以下参数需要配置DataWorksODPS Spark节点配置项的 参数 中或配置...

开发ODPS Spark任务

您无需上传 spark-defaults.conf 文件,而是需将 spark-defaults.conf 中的配置逐条加到ODPS SPARK节点配置项中,例如Executor的数量、内存大小和 spark.hadoop.odps.runtime.end.point 的配置。conf PROP=VALUE Main Class 配置主类名称。...

配置选项

您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期(lifecycle选项)。options.lifecycle=30#使用Tunnel下载string类型时使用bytes(tunnel.string_as_binary选项)。options.tunnel....

Quick BI ODPS数据集配置了加速配置,没有获取到预期...

问题描述 Quick BI ODPS数据集配置了加速配置,没有获取到预期的数据。问题原因 ODPS数据集默认开启了缓存。解决方案 可以手动关闭了缓存。适用于 Quick BI 适用v3.4.3及其以下版本

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorksPyODPS 2节点上直接编辑Python代码,操作MaxCompute。前提条件 已创建PyODPS 2节点,详情...

MaxCompute(原ODPS)数据源配置

开放数据处理服务MaxCompute(原ODPS)是一个开放的计算平台,如果您要导入到OpenSearch的数据是由MaxCompute平台计算而产生的,则可以在应用中配置MaxCompute源信息,在触发应用索引重建任务后,系统会自动去获取 MaxCompute 表中的全量...

MaxCompute(原ODPS)数据源配置

开放数据处理服务MaxCompute(原ODPS)是一个开放的计算平台,如果您要导入到OpenSearch-行业算法版的数据是由MaxCompute平台计算而产生的,则可以在应用中配置MaxCompute源信息,在触发应用索引重建任务后,系统会自动去获取 MaxCompute ...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力,无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本,要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本,要求Mars为0.4.4以上...

PyODPS概述

DataWorksDataWorksPyODPS节点已安装好了PyODPS,您可以直接在DataWorksPyODPS节点上开发PyODPS任务并周期性运行,操作指导请参见 通过DataWorks使用PyODPS。PAI Notebooks:PAI的Python环境也可安装运行PyODPS,其中PAI的内置镜像均...

时区配置操作

本文为您介绍如何使用SET命令配置MaxCompute Project的时区。支持时区功能的作业如下:MapReduce支持时区功能。Spark支持时区功能。对于提交到MaxCompute计算集群的任务,可自动获取Project的时区。对于通过yarn-client模式启动(例如spark...

开源支持

如何在DataWorks上使用PyODPS,详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API,详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求,加快PyODPS生态成长。服务支持方式:您可通过访问官方...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并...

PyODPS的去重

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))print iris[['name']].distinct()print iris.distinct('name')print iris.distinct('name','sepallength').head(3)#您可以调用unique对Sequence进行去重操作,...

在本地环境上使用PyODPS

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16}#会根据全局配置添加hints o.execute_sql('SELECT*FROM pyodps_iris')完整示例 本地创建 test-pyodps-local.py 文件。写入示例代码。import os from odps...

准备工作

命令示例如下:python test.py 通过DataWorks访问MaxFrame DataWorks为MaxCompute项目提供任务调度能力,且已在PyODPS 3节点内置了MaxFrame,您可以直接使用DataWorksPyODPS 3节点开发和运行MaxFrame作业。创建PyODPS 3节点。您可以进入...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

项目空间

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS。使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。获取项目空间 使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

管理IP白名单

部署DataWorks的设备默认在白名单内,通过DataWorks提交MaxCompute作业不受限制,您无需配置白名单。VPC网络下的IP白名单。设置VPC网络下的IP白名单时,您需要:获取VPC网络的VPC实例ID。配置VPC网络下的Endpoint。详情参见 Endpoint。添加...

Java SDK介绍

您可以通过Maven管理配置新SDK的版本,Maven的配置示例如下。groupId>com.aliyun.odps</groupId><artifactId>odps-sdk-core</artifactId><version>X.X.X-public</version></dependency>说明 0.27.2-public版本及以上才支持...

常见问题

本文为您介绍执行MaxCompute准备工作过程中的常见问题。问题类别 常见问题 开通MaxCompute DataWorks与MaxCompute的区别是什么?如何区分DataWorks工作空间和MaxCompute项目?...配置详情,请参见 配置MaxCompute Studio。

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用