阿里云DataWorks业务-阿里云DataWorks业务文档介绍内容-移动阿里云

MaxCompute如何访问Hologres

说明 DataWorks业务流程创建，详情请参见创建业务流程。DataWorks上的MaxCompute资源创建，详情请参见创建并使用MaxCompute资源。在目标业务流程下，右键选择新建资源>MaxCompute>Python，在新建资源对话框，填写资源名称后，单击...

运行模式

MaxCompute Spark支持三种运行方式：Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似，您首先需要做以下准备工作：准备MaxCompute项目以及对应...

创建并使用MaxCompute资源

在数据开发页面的具体业务流程，DataWorks支持通过新建资源或上传已有本地资源两种方式，生成DataWorks中需使用的资源，使用哪种方式请以各类型资源的实际创建界面为准。生成DataWorks资源的入口及步骤如下图。说明若未新建业务流程，请...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

PyODPS参数传递

本文为您介绍如何在DataWorks中进行PyODPS参数的传递。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))print iris[['name']].distinct()print iris.distinct('name')print iris.distinct('name','sepallength').head(3)#您可以调用unique对Sequence进行去重操作，...

PyODPS读取分区表数据

本文为您介绍如何通过PyODPS读取分区表数据。前提条件您需要完成以下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型，您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发，PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码，操作MaxCompute。前提条件已创建PyODPS 2节点，详情...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上安装...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作及DataFrame框架，帮助您在MaxCompute上使用Python进行数据分析，支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时，如何安装PyODPS。前提...

Python SDK常见问题

本文为您介绍Python SDK常见问题，即PyODPS。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

PyODPS的排序

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))#排序 print iris.sort('sepalwidth').head(5)#降序排列两种方式#设置参数ascending=False;进行降序排列 print iris.sort('sepalwidth',ascending=False).head(5...

PyODPS概述

DataWorks：DataWorks的PyODPS节点已安装好了PyODPS，您可以直接在DataWorks的PyODPS节点上开发PyODPS任务并周期性运行，操作指导请参见通过DataWorks使用PyODPS。PAI Notebooks：PAI的Python环境也可安装运行PyODPS，其中PAI的内置镜像均...

开发PyODPS脚本

新建MaxCompute PyODPS脚本后，PyODPS脚本模板会通过PyODPS Room自动初始化 odps 和 o 两个对象。通过DataWorks开发PyODPS脚本时，系统会自动创建Room。通过IntelliJ IDEA开发PyODPS脚本时，需要创建Room，详情请参见 PyODPS文档。

PyODPS使用第三方包

本文为您介绍如何在PyODPS中使用第三方包。PyODPS制作第三方包的操作请参见 PyODPS制作第三方包。前提条件已开通MaxCompute产品。如何开通请参见开通MaxCompute。已开通DataWorks产品。如何开通请参见开通DataWorks。上传三方包使用...

开源支持

如何在DataWorks上使用PyODPS，详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API，详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求，加快PyODPS生态成长。服务支持方式：您可通过访问官方...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

ODPS-0420095

错误码：ODPS-0420095:Access Denied 错误1：You have no privilege to create external project-you have to be owner,super admin or admin of the referred project.错误信息 ODPS-0420095:Access Denied-You have no privilege to ...

在本地环境上使用PyODPS

PyODPS是阿里云开发的Python SDK，用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。前提条件本地已安装python环境，且已安装PyODPS包，参考：安装PyODPS。准备数据集 ...

使用DataWorks连接

MaxCompute任务节点包括：ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景数据分析使用场景数据分析的 SQL查询功能使用场景如下：您可以通过数据分析的 SQL查询功能查询数据，并...

准备工作

命令示例如下：python test.py 通过DataWorks访问MaxFrame DataWorks为MaxCompute项目提供任务调度能力，且已在PyODPS 3节点内置了MaxFrame，您可以直接使用DataWorks的PyODPS 3节点开发和运行MaxFrame作业。创建PyODPS 3节点。您可以进入...

项目空间

使用DataWorks：创建好PyODPS 2节点或PyODPS 3节点，详情请参见通过DataWorks使用PyODPS。使用本地PC环境：安装好PyODPS并初始化ODPS入口对象。获取项目空间使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

PyODPS DataFrame的代码运行环境

代码示例 from odps import ODPS,options import numpy as np o=ODPS(.)df=o.get_table('pyodps_iris').to_df()coeffs=[0.1,0.2,0.4]def handle(v):import numpy as np return float(np.cosh(v))*sum(coeffs)options.df.supersede_...

Spark常见问题

在DataWorks ODPS Spark节点中选择jar、file、archive资源。说明该方案在任务运行时会上传资源，对于较大资源建议采用方案一进行引用。如何访问VPC？当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务：反向访问方式使用限制...

PyODPS制作第三方包

PyODPS自V0.11.3版本开始提供了 pyodps-pack 命令行工具，用于制作符合PyODPS及DataWorks PyODPS节点标准的三方包，使用方法类似 pip 命令。您可以使用该工具将所有依赖项目制作成一个后缀为.tar.gz 的压缩包，其中包含所有依照MaxCompute...

数据类型版本说明

MaxCompute目前提供了三种不同类型的数据类型版本，包括1.0数据类型、2.0数据类型以及Hive兼容数据类型，您可以根据业务需求选择合适的数据类型版本。本文为您介绍三种数据类型版本、选择数据类型版本以及查看和修改项目的数据类型版本。...

PyODPS的列运算

本文为您介绍如何进行PyODPS的列运算。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾...

Java SDK介绍

Odps odps=new Odps(account);String odpsUrl="<yourodps endpoint>;odps.setEndpoint(odpsUrl);odps.setDefaultProject("my_project");for(Table t:odps.tables()){.} 批量数据通道 MaxCompute Tunnel数据通道是基于Tunnel SDK编写的。您...

作业优先级

您也可以根据业务需要，保存到配置文件里/强烈建议不要把 AccessKey 和 AccessKeySecret 保存到代码里，会存在密钥泄漏风险 Account account=new AliyunAccount(System.getenv("ALIBABA_CLOUD_ACCESS_KEY_ID"),System.getenv("ALIBABA_...

数据动态脱敏

DataWorks基础版暂时无法使用此功能，如您的DataWorks为基础版，请升级DataWorks为合适版本。详情请参见 DataWorks各版本详解。仅华北2（北京）、华东2（上海）、华东1（杭州）、西南1（成都）、华南1（深圳）、华北2（北京政务云）、华东2...

配置选项

您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期（lifecycle选项）。options.lifecycle=30#使用Tunnel下载string类型时使用bytes（tunnel.string_as_binary选项）。options.tunnel....

ODPS-0123144

错误码：ODPS-0123144:Fuxi job failed 错误1：kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

ODPS-0123031

错误码：ODPS-0123031:ODPS partition exception 错误1：maximum 60000 partitions allowed 错误信息示例 ODPS-0123031:ODPS partition exception-maximum 60000 partitions allowed 错误描述每张MaxCompute的分区表最多允许存在 60000 个...

PyODPS API概述

本文为您提供了PyODPS API文档链接，其中包含各函数的参数说明及示例。ODPS详解（Definitions）PyODPS DataFrame指南（DataFrame Reference）

常见问题

区分二者的方式如下：DataWorks工作空间：登录 DataWorks控制台，在左侧导航栏，单击工作空间列表，此处您看到的是DataWorks工作空间。MaxCompute项目：登录 MaxCompute控制台，在左侧导航栏选择工作区>项目管理，查看MaxCompute项目名称...

Python SDK概述

PyODPS是MaxCompute的Python SDK，能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK，可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...