阿里云DataWorks业务

_相关内容

大量数据导出方案

右键单击业务流程,选择 新建节点>MaxCompute>ODPS SQL。填写 节点名称 为 runsql,单击 确认。配置ODPS SQL节点,配置完成后单击 保存。创建数据同步节点。右键单击业务流程,选择 新建节点>数据集成>离线同步。填写 节点名称 为 sync2...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力,无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能,将 云消息队列 Kafka 版 集群上的数据迁移至阿里云大数据计算服务MaxCompute,方便您对离线数据进行分析加工。前提条件 在开始本教程前,确保您在同一地域中已完成以下操作:云消息队列 Kafka 版 ...

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化,为了更直观地反应整个过程,您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件 和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

SQL

PyODPS支持对MaxCompute SQL的基本操作,本文为您介绍如何在PyODPS中使用SQL。背景信息 PyODPS提供对MaxCompute SQL的基本操作方法,方法如下所示。方法名称 方法说明 execute_sql()/run_sql()执行SQL语句。open_reader()读取SQL执行结果。...

PyODPS支持对MaxCompute表的基本操作,包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作 说明 基本操作 列出项目空间下...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

合并小文件

PyODPS脚本合并 通过PyODPS异步提交任务,合并前一天任务产出的小文件,脚本示例如下:import os from odps import ODPS#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID,#ALIBABA_CLOUD_ACCESS_KEY_SECRET 环境变量...

Schema

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS。使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。基本操作 当前MaxCompute Schema功能还在公测中,如果您需要使用的话,请提交新功能测试申请...

开发ODPS MR任务

DataWorks中,您可以通过ODPS MR节点实现MaxCompute MapReduce任务的调度运行,以及与其他作业的集成操作。使用限制 ODPS MR节点的使用限制请参见 使用限制。编辑代码:简单示例 以下以一个简单示例为您介绍ODPS MR节点的使用:统计wc_in...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

授权实践

Policy内容如下:{"Statement":[{"Action":["odps:List","odps:CreateTable","odps:CreateInstance","odps:CreateResource","odps:CreateFunction"],"Effect":"Allow","Resource":["acs:odps:*:projects/<project_name>"]},{"Action":[...

RAM权限策略管理

{"Version":"1","Statement":[{"Effect":"Allow","Action":["odps:UpdateQuota","odps:UpdateQuotaPlan","odps:UpdateSubQuotas","odps:UpdateQuotaSchedule","odps:CreateQuotaPlan","odps:DeleteQuotaPlan","odps:CreateQuotaSchedule"],...

SET

odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单并发运行。因此在...

镜像管理

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传...

UDF开发(Java)

当MaxCompute提供的内建函数无法支撑您的业务实现时,您可以根据本文提供的开发流程,使用开发工具(例如IntelliJ IDEA(Maven)或 MaxCompute Studio)自行编写代码逻辑创建自定义函数(UDF),并在MaxCompute中进行调用,以满足多样化...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

Flag参数列表

ALL 调度 Session odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数,优先级低于 odps.stage.mapper.split.size、odps.stage.reducer.mem 和 odps.stage.joiner.num 属性。说明 SQL语句中使用Limit,会限制Limit作用的Worker单...

简单下载示例

您也可以根据业务需要,保存到配置文件里/强烈建议不要把 AccessKey 和 AccessKeySecret 保存到代码里,会存在密钥泄漏风险 private static String accessId=System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");private static String ...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

创建DataFrame

前提条件 操作下述代码示例前,您需要先准备好示例表 pyodps_iris,详细操作请参见 Dataframe数据处理。背景信息 在使用DataFrame时,您需要了解 Collection(DataFrame)、Sequence 和 Scalar 三类对象的操作。三类对象分别表示表结构...

MaxCompute UDF概述

UDF(User-Defined Function)即自定义函数,当MaxCompute提供的内建函数无法支撑您的业务实现时,您可以根据本文中的开发流程及使用示例,自行编写代码逻辑创建自定义函数,以满足多样化业务需求。背景信息 广义的UDF定义是 自定义标量...

权限问题

MaxCompute表无Download权限 报错信息 解决方法 在DataWorks的 数据地图 中搜索对应的MaxCompute表,并申请开通其Download权限,运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限 报错信息 解决方法 申请对应Project下的...

使用限制

在使用MaxCompute前,建议您先了解产品相关使用限制,确保业务可顺利开展。本文为您介绍使用MaxCompute过程中的操作限制。包年包月计算资源可购买额度限制说明 MaxCompute包年包月计算资源(单位:CU)默认最多可购买额度上限为 2000 CU,...

Tablestore外部表

SELECT odps_orderkey,odps_orderdate,SUM(odps_totalprice)AS sum_total FROM ots_table_external WHERE odps_orderkey>5000 AND odps_orderkey< 7000 ANDodps_orderdate>='1996-05-03' AND odps_orderdate< '1997-05-01' GROUP BYodps_...

多线程上传示例

您也可以根据业务需要,保存到配置文件里/强烈建议不要把 AccessKey 和 AccessKeySecret 保存到代码里,会存在密钥泄漏风险 private static String accessId=System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");private static String ...

Python SDK示例:SQL

from odps import options options.sql.settings={'odps.sql.mapper.split.size':16} o.execute_sql('select*from pyodps_iris')#会根据全局配置添加hints 读取SQL执行结果 运行SQL的Instance能够直接执行 open_reader 操作读取SQL执行结果...

PyODPS节点实现避免将数据下载到本地

本文为您介绍PyODPS如何避免将数据下载到本地。背景信息 PyODPS提供了多种方便下载数据到本地的方法。因此,在设备允许的情况下,可以把数据下载到本地处理,然后再上传至MaxCompute。但是这种操作非常低效,数据下载到本地进行处理,无法...

周期性调度作业概述

如果您希望周期性运行MaxCompute作业,可使用DataWorks的DataStudio开发周期性MaxCompute作业,并配置周期性调度的时间属性、调度依赖等配置项,将作业整体提交至DataWorks的运维中心进行周期性调度。本文为您概要介绍当前使用DataWorks...

用户规划与管理

相关操作 由于后续涉及到需要在DataWorks上操作,在修改RAM角色的权限策略时,您需要把RAM角色同时授权给DataWorks服务,以便在DataWorks上能够提交周期性调度作业至MaxCompute。RAM角色的权限策略配置方式请参见(进阶)RAM角色授信策略。...

在SQL语句中设置Flag示例

背景信息 使用DataWorks或MaxCompute客户端提交SQL时,通常需要设置SQL的Flag。例如,Session级别使用MaxCompute 2.0数据类型时,需要在涉及2.0数据类型的SQL前加设置Flag的语句 set odps.sql.type.system.odps2=true;示例 使用Java SDK...

开发ODPS Script任务

DataWorks为您提供ODPS Script节点,其SQL开发模式是MaxCompute基于2.0的SQL引擎提供的脚本开发模式。本文为您介绍ODPS Script节点的使用。前提条件 已创建ODPS Script节点,详情请参见 创建并管理MaxCompute节点。背景信息 MaxCompute当前...

管理IP白名单

部署DataWorks的设备默认在白名单内,通过DataWorks提交MaxCompute作业不受限制,您无需配置白名单。VPC网络下的IP白名单。设置VPC网络下的IP白名单时,您需要:获取VPC网络的VPC实例ID。配置VPC网络下的Endpoint。详情参见 Endpoint。添加...

SQL其他常见问题

您可以在Session级别执行 set odps.sql.decimal.odps2=true;命令,打开2.0数据类型开关。但您需要注意,MaxCompute支持的DECIMAL类型数据的最大长度为38位,但实际业务处理过程中如果数据存储为最大长度,在数据处理过程中很容易出现数据...

简单上传示例

您也可以根据业务需要,保存到配置文件里/强烈建议不要把 AccessKey 和 AccessKeySecret 保存到代码里,会存在密钥泄漏风险 private static String accessId=System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID");private static String ...

统计MaxCompute TOPN费用账号及耗时作业

进入DataWorks数据开发界面,创建ODPS SQL节点(information_history)并配置定时调度,用于定时将数据写入备份表information_history。完成后单击左上角 图标保存。创建ODPS SQL节点操作,请参见 创建ODPS SQL节点。ODPS SQL节点运行的...

SQL脚本模式

DataWorks中可以建立脚本模式的节点ODPS Script,示例如下。在此节点中进行脚本模式编辑,编辑完成后单击工具栏的 运行 图标,提交脚本到MaxCompute执行。从输出信息的Logview URL中可以查看执行计划图和结果。通过Java SDK使用脚本模式...

快速入门

本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速使用MaxFrame进行开发。数据准备 本文以 movielens ...

创建并使用自定义函数

DataWorks支持您可视化创建与管理MaxCompute自定义函数,您可通过 MaxCompute的SQL命令创建与管理MaxCompute函数,也可使用DataWorks的可视化方式注册。本文为您介绍如何使用DataWorks可视化方式创建与使用MaxCompute自定义函数。前提条件 ...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用