大数据开发需要用到那些软件-大数据开发需要用到那些软件文档介绍内容-移动阿里云

CreateFile-在数据开发中创建一个文件

调用CreateFile，在数据开发中创建一个文件。目前不支持调用该接口创建数据集成节点任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下...

DataWorks Copilot

场景3-对已有代码进行改写功能描述：您可通过自然语言对已有代码进行修改，只需要用自然语言说出您的要求，DataWorks Copilot就会对指定的代码进行改写。示例："修改sql，将其结果从列转置为行，使用unpivot实现。场景4-快速排查代码中...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。MaxCompute环境准备一、开通MaxCompute产品本教程基于MaxCompute实现，...

数据源管理

重要上述数据源如用于数据开发场景，建议使用通过绑定计算资源的方式自动创建，否则数据开发任务无法运行。手动创建用户需手动填写数据源的实例/连接信息、数据库、账号密码等配置参数。适用所有数据源类型，您可以自主控制数据源的新增...

数据开发问题诊断

DataWorks全新推出了实时数据开发治理功能，通过集成数据治理插件和LSP（Language Server Protocol）技术，在代码保存时可触发智能检测，并提供针对性的修复建议。开发者可以选择一键确认修复，快速解决问题。该功能依托预设的治理规则库和...

Kafka数据迁移MaxCompute最佳实践

在顶部切换至目标地域，找到已创建的工作空间，单击操作列的快速进入 数据开发，进入数据开发页面。单击左侧的图标，进入临时查询页面。单击上面的图标。选择新建 ODPS SQL 节点。在新建节点对话框中，输入路径、名称信息。...

StarRocks

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 StarRocks。在新建节点对话框输入节点名称，单击 ...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

MaxCompute在不同模式工作空间访问资源与权限说明

仅需要授权数据开发人员“DataWorks开发角色”即可完成所有数据仓库开发工作。安全、规范。具备安全、规范的代码发布管控流程（包含代码评审、代码DIFF查看等功能），保障生产环境稳定性，避免不必要的因代码逻辑引起的脏数据蔓延或任务报...

Data Lake Analytics节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点自定义 Data Lake Analytics。您也可以打开相应的业务流程，右键...

基本概念

数据开发 场景：场景定义数据输出的方式，一个场景包含一种或多种数据输出的方式。计算资源：可以执行计算节点的资源。使用“场景加工”时并不会单独执行一个计算节点任务，需要把计算节点组织成流程执行，所以需要计算资源支持流程的批量...

购买指引

大数据计算引擎与存储费用（独立计费）：DataWorks是一个大数据开发与调度平台，它本身不执行核心的计算和存储。当您通过DataWorks提交一个SQL任务时，实际执行该任务的是底层的计算引擎（如MaxCompute、Hologres、E-MapReduce等），产生的...

ListNodeDependencies-获取数据开发节点的依赖节点

分页获取指定数据开发节点的依赖节点。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

API概览

本产品（大数据开发治理平台 DataWorks/2020-05-18）的OpenAPI采用 RPC 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息...

MaxCompute资源与函数

Data Studio支持管理MaxCompute项目资源，包括从本地或OSS文件创建资源，并且可以将这些创建的资源注册为函数，以便在数据开发节点中使用。本文将详细介绍如何通过资源管理创建MaxCompute不同类型的资源和函数的具体操作事项。前提条件已 ...

数据开发工作台（已停止新购）

如果您在2022年2月21日21点前使用过数据开发功能，需要继续在EMR上使用数据开发功能，建议您尽快迁移到EMR Workflow，详情请参见 EMR旧版数据开发迁移公告。您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新...

DataWorks数据服务对接DataV最佳实践

现在通过DataWorks为您提供的数据集成 数据开发 数据服务的全链路数据研发平台，结合MaxCompute即可快速搭建企业数仓。DataWorks数据服务提供了快速将数据表生成API的功能，通过可视化的向导模式操作，无需代码便可快速生成API，然后通过...

数据服务

数据推送：数据推送是阿里云大数据开发治理平台DataWorks提供的一项数据服务功能，允许用户通过编写SQL查询数据源（如MySQL、PostgreSQL、Hologres、MaxCompute、ClickHouse等），将查询结果结合富文本或表格内容，定期自动推送至钉钉群、...

数据服务概述

数据推送：数据推送是阿里云大数据开发治理平台DataWorks提供的一项数据服务功能，允许用户通过编写SQL查询数据源（如MySQL、PostgreSQL、Hologres、MaxCompute、ClickHouse等），将查询结果结合富文本或表格内容，定期自动推送至钉钉群、...

ListNodes-获取数据开发节点列表

分页获取数据开发节点列表，也可以通过筛选条件对列表进行筛选查询。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权...

运维阶段

背景信息 数据开发人员主要需要处理以下事项：程序异常处理、性能优化。调度异常处理。数据质量监控规则异常分析、规则优化。数据异常的核查。运维阶段的流程包括分析影响、制定与实施方案和验证实施方案。操作步骤分析影响。运维人员或...

建模空间

当您所需要管理多个DataWorks工作空间且需要复用一套数仓规划时，面对跨多个工作空间的复杂数据体系，可以通过设计空间来共享一套数据建模工具，针对整个数据体系进行统一的数仓规划、维度建模及指标定义等工作。本文为您介绍DataWorks建模...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

软件版本选择与计费

DataWorks不同版本的关键能力差异点如下：模块能力标准版(对比基础版增加的能力)专业版(对比标准版增加的能力)企业版(对比专业版增加的能力)数据开发 控制节点/组件管理代码评审支持更大规模的开发运维中心智能基线智能诊断、值班表...

跨工作空间发布

环境限制源工作空间跨工作空间发布到目标工作空间时，环境限制如下：源工作空间目标工作空间工作空间模式 数据开发版本简单模式新版数据开发 简单模式旧版数据开发 标准模式新版数据开发 标准模式旧版数据开发 简单模式新版数据...

旧版数据开发：绑定CDH计算资源

以下简称CDH）和CDP（Cloudera Data Platform，以下简称CDP）集群对接的能力，您可在DataWorks中注册CDH及CDP集群，进行任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和治理操作。背景信息 CDH是Cloudera的开源平台...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

基于MaxCompute实现拉链表

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。创建业务流程。鼠标悬停至图标，单击新建业务流程。在新建业务流程对话框中，输入业务名称和 ...

单表离线同步任务

数据源环境隔离：同一数据源名称绑定开发与生产两套独立配置，任务执行时自动按环境切换数据源 ——开发调试用开发环境，生产调度用生产环境，防止测试误操作线上数据的风险。功能概述功能说明全量或增量数据同步离线同步任务可以通过...

DsgQuerySensResult-获取敏感数据识别结果

您可登录 DataWorks 控制台，进入数据开发（DataStudio）页面，单击右上方当前登录用户名称，选择菜单用户信息，获取租户 ID。10241024 DbType string 否数据库类型，取值为：ODPS.ODPS HOLO.POSTGRES EMR ODPS.ODPS ProjectName string ...

Notebook开发

适用范围仅支持使用新版数据开发（Data Studio）的工作空间。仅支持Serverless资源组，详情请参见使用Serverless资源组。注意事项运行该任务时，若使用Serverless资源组，单任务支持最大配置 64CU，但建议不超过 16CU，以避免CU过大...

开发ODPS Spark任务

说明由于数据开发中的ODPS Spark节点没有运行入口，因此您需要在开发环境的运维中心执行Spark任务。查看返回结果。待补数据实例运行成功后，进入其运行日志的 tracking URL 中查看运行结果，如下：False True True True True 编辑代码：...

Amazon Redshift数据源

创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建并管理数据源，详细的配置参数解释可在配置界面查看对应参数的文案提示。以下对Amazon Redshift数据源的几个配置项进行说明。JDBC URL...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

MaxCompute MR节点

您可以通过创建MaxCompute MR类型节点并提交任务调度，使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的大规模数据集。前提条件（可选，RAM账号需要）进行任务开发的RAM账号已被添加至对应工作空间中，并具有开发或空间...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

SelectDB数据源

创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见数据源管理，详细的配置参数解释可在配置界面查看对应参数的文案提示。下面对SelectDB数据源的几个配置项进行说明：MySQL连接地址：请填写...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...