系统大数据开发-系统大数据开发文档介绍内容-移动阿里云

OpenLake解决方案快速体验

产品列表 OpenLake免费试用会为您开通如下列表内的产品：分类产品开发平台 大数据开发治理平台DataWorks（DataWorks计费说明、DataWorks基础版、DataWorks通用资源组）、人工智能平台PAI 存储服务数据湖构建DLF、对象存储OSS 计算资源 ...

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据同步系统与ClickHouse的网络交互次数，并提升整体吞吐量。如果该值设置过大，会导致数据同步运行进程OOM异常。否 1,024

管理控制

大模型服务为您提供高效部署、安全通信与便捷调用的一站式能力，您可以基于DataWorks的Serverless资源组轻松完成模型部署，并直接在数据集成、数据开发任务中调用大模型。更多信息，请参见大模型服务管理。镜像管理在控制台左侧导航栏，...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表类型数据集数据来源及说明数据类型数字商业阿里电商数据集本数据集来源天池阿里移动推荐算法挑战赛，基于阿里巴巴100万条脱敏的商品数据，可以基于各类商品、操作、时间等字段，体验阿里云大数据分析能力。静态数据 ...

EMR Hive节点

DataWorks提供的EMR（E-MapReduce）Hive节点支持云端大规模数据的批处理分析，能够操作存储在分布式系统中的数据，简化大数据处理流程并提高开发效率。在EMR Hive节点中，您可以使用类SQL语句读取、写入和管理大数据集，从而高效地完成海量...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

物化逻辑模型

发布模型可将逻辑模型物化为MaxCompute、Hologres等物理引擎中的物理表或视图，用于后续的数据开发与分析。限制条件发布模型前，需满足以下条件：目标引擎：支持发布至 MaxCompute、Hologres、EMR Hive、CDH、MySQL 引擎。发布类型：发布...

KingbaseES（人大金仓）节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 KingbaseES。在新建节点对话框输入节点名称，单击 ...

创建EMR Hive节点

您可以创建EMR（E-MapReduce）HIVE节点，通过类SQL语句读写、管理存储在分布式存储系统上的大数据集的数据仓库，完成海量日志数据的分析和开发工作。前提条件已创建阿里云EMR集群，并注册EMR集群至DataWorks。操作详情请参见旧版数据开发...

创建Teradata数据源

如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、...

创建Teradata数据源

如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、...

MaxCompute函数管理

您可以通过MaxCompute函数面板，查看在MaxCompute计算引擎中存在的函数、函数的变更历史，并可以一键添加函数至数据开发面板的业务流程中。查看函数进入 数据开发 页面。登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

配置基础属性

进入数据开发节点的编辑页面，单击右侧导航栏的调度配置，在基础属性区域配置调度节点的基本信息。参数描述名称新建数据开发节点时输入的节点名称，不可以修改。节点ID 数据开发节点提交后会生成唯一的节点ID，不可以修改。节点类型 ...

代码搜索

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在数据开发目录树区域，单击顶部菜单栏的图标，进入代码搜索页面。配置搜索条件并查看搜索结果。...

执行冒烟测试

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。开启强制冒烟测试空间管理员可开启工作空间强制进行冒烟测试，开启强制冒烟测试功能后，当前工作...

后续指引

介绍：SQL SQLML PyODPS MapReduce Mars Spark Graph 外部表 Java SDK Python SDK JDBC 实践：数据开发最佳实践常见问题：错误码 SQL常见问题 PyODPS常见问题 MapReduce常见问题 Spark常见问题外部表常见问题 Java SDK常见问题 Python ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

DataWorks HoloStudio下线公告

尊敬的DataWorks用户：为给您提供一致的开发体验，DataWorks HoloStudio 产品能力将整合至 DataWorks 数据开发（DataStudio）中，从 2024年2月29日开始，HoloStudio将不再提供服务，届时您可使用DataStudio相关功能继续进行Hologres的数据...

配置PolarDB输入

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开业务流程，右键单击目标业务流程...

PostgreSQL节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 PostgreSQL。在新建节点对话框输入节点名称，单击 ...

数据开发流程引导

DataWorks将不同类型引擎任务封装为不同节点，通过创建节点来生成数据开发任务。同时，数据开发（DataStudio）支持使用资源、函数以及不同的逻辑处理节点开发复杂任务。本文将为您介绍数据开发任务的通用开发流程。前提条件已绑定所需数据...

创建解决方案

数据开发模式全面升级，包括工作空间解决方案业务流程三级结构，抛弃陈旧的目录组织方式。背景信息 DataWorks对数据开发模式进行全面升级，按照业务种类组织相关的不同类型的节点，让您能够更好地以业务为单元、连接多个业务流程进行开发...

实践示例：E-MapReduce底层脱敏使用方法

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在数据开发页面单击新建，选择新建节点 EMR Hive 创建Hive节点。编辑节点代码，新建 onefall_test_...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

什么是MaxFrame

Data+AI开发：对于整个分布式数据开发和模型开发过程依赖于第三方或自定义镜像的场景，MaxFrame提供完整的支持，以满足从数据处理到AI模型训练与部署的需要。使用须知支持地域华东1（杭州）、华东2（上海）、华北2（北京）、华北6...

ClusterConfig

ide：DataStudio（数据开发）。scheduler.backfill：运维中心-补数据实例。da：数据分析。scheduler.auto：运维中心-周期实例。ide ConfigValue string 配置值。{"spark.driver.memory":"1g"} EnableOverwrite boolean 是否覆盖数据开发中...

GBase 8a节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 Gbase8a。在新建节点对话框输入节点名称，单击 ...

运行历史

运行历史面板为您展示最近三天您在数据开发界面运行过的所有任务记录，单击相应的任务，即可查看运行日志。说明运行历史界面只展示当前账号在数据开发（DataStudio）最近三天的运行记录。如您需查看调度任务每日运行情况，请前往运维...

Shell类型节点运行Python脚本

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。新建MaxCompute Python资源。在数据开发页面右键单击目标业务流程，选择新建资源，在 MaxCompute ...

创建业务流程

DataWorks的业务流程开发结构满足根据业务视角来组织数据开发任务的需求，也提供了周期业务流程和手动业务流程两种，以满足需要周期性调度和无需周期性调度手动触发运行的场景。本文为您介绍如何创建、设计、提交和查看业务流程，...

配置AnalyticDB for MySQL输出

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开目标业务流程，右键单击数据集成...

配置DataHub输入

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开业务流程，右键单击目标业务流程...

上传数据

DataWorks的DataStudio（数据开发）支持将本地的CSV文件或自定义文本文件数据直接上传至MaxCompute表中，本文为您介绍相关操作。前提条件已创建用于接收本地数据的MaxCompute开发表。建表操作请参见创建并使用MaxCompute表。使用限制 ...

表管理

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在左侧导航栏单击表管理。新建、查找及编辑目标表新建表及导入表数据在表管理页面，您可单击及 ...

任务调试流程

调试运行单个任务 数据开发概述，在左侧导航栏的数据开发或手动业务流程模块，双击业务流程目录下的目标节点，进入该节点的编辑页面。调试运行任务。在节点编辑页面，使用节点工具栏中的运行或高级运行调试代码逻辑，也可通过快捷运行调试...

Shell类型节点使用ossutil工具

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。新建通用Shell节点。在数据开发页面右键单击目标业务流程，选择新建节点，在通用目录下选择 ...

DataWorks新版数据源公告

若想使用创建的数据源进行数据开发，则数据源创建完成后还需进入数据开发（DataStudio）进行模块绑定。已绑定的计算引擎：已绑定的计算引擎迁移至计算资源进行管理。编辑计算引擎：不再支持直接编辑计算引擎，如需编辑可通过编辑数据源来...

查看代码结构

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。进入目标节点的编辑页面。您可以在 数据开发 或手动业务流程的目录树下，找到目标节点，双击该...

配置DataHub输出

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开业务流程，右键单击目标业务流程...