大数据开发需要什么-大数据开发需要什么文档介绍内容-移动阿里云

大数据AI公共数据集分析

操作难度低所需时间 30分钟使用的阿里云产品 DataWorks：一站式大数据开发与治理平台，创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应引擎的数据开发治理任务。MaxCompute：适用于数据分析场景的企业级SaaS模式云数据...

建模空间

模型设计师设置好数据模型设计空间与数据研发工作空间的关系后，模型设计师在进行模型（汇总表、维度表、明细表、应用表）发布时，可以选择将模型物化到被关联的某一个研发空间，后续数据开发工程师即可在对应的工作空间进行数据开发...

创建EMR Spark SQL节点

前提条件开始进行节点开发前，若您需要定制组件环境，此时即可基于官方镜像 dataworks_emr_base_task_pod 创建自定义镜像，并在 数据开发中使用镜像。例如：在创建自定义镜像时替换Spark Jar包或是依赖特定的库、文件或 jar包。已注册...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。MaxCompute环境准备一、开通MaxCompute产品本教程基于MaxCompute实现，...

创建Aliyun HBase数据源

如果您使用的是云数据库HBase，在对接Dataphin进行数据开发时，您需要先完成Aliyun HBase数据源的创建。更多云数据库HBase信息，请参见什么是云数据库HBase。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、数据源...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

进阶：商品订单畅销类目分析

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本文以DataWorks的部分核心功能为例，指导您使用DataWorks接入数据并进行业务处理、...

创建Aliyun HBase数据源

如果您使用的是云数据库HBase，在对接Dataphin进行数据开发时，您需要先完成Aliyun HBase数据源的创建。更多云数据库HBase信息，请参见什么是云数据库HBase。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理员、数据源...

跨工作空间发布

环境限制源工作空间跨工作空间发布到目标工作空间时，环境限制如下：源工作空间目标工作空间工作空间模式 数据开发版本简单模式新版数据开发 简单模式旧版数据开发 标准模式新版数据开发 标准模式旧版数据开发 简单模式新版数据...

数据库节点

在选择数据源选择框内单击弹出选择数据源弹窗，在弹窗内选择进行任务开发需要使用的数据源。如果没有所需数据源，可单击新增数据源添加相应的数据源。说明标准模式工作空间下，仅展示已配置开发环境与生产环境的数据源。数据库节点 ...

DataWorks Copilot

一、功能概述什么是DataWorks Copilot DataWorks Copilot，作为一站式智能数据开发治理平台 DataWorks 的智能助手，借助AI推理和自然语言处理能力，在代码开发场景下，帮助开发者根据自然语言快速完成多种代码相关操作，包括 SQL/Python ...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。EMR环境准备本教程需要您创建一个EMR集群并集成到DataWorks，以便在...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本案例将使用自定义函数，注册函数所用资源将上传至...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息...

创建Hologres数据源

如果您使用的是Hologres，在对接Dataphin进行数据开发时，您需要先完成Hologres数据源的创建。更多Hologres信息，请参见什么是实时数仓。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师...

购买指引

大数据计算引擎与存储费用（独立计费）：DataWorks是一个大数据开发与调度平台，它本身不执行核心的计算和存储。当您通过DataWorks提交一个SQL任务时，实际执行该任务的是底层的计算引擎（如MaxCompute、Hologres、E-MapReduce等），产生的...

创建RocketMQ数据源

如果您使用的是阿里云消息队列RocketMQ版，在对接Dataphin进行数据开发时，您需要先完成RocketMQ数据源的创建。更多阿里云消息队列RocketMQ版信息，请参见什么是消息队列RocketMQ版。权限说明仅支持拥有新建数据源权限点的自定义全局...

创建RocketMQ数据源

如果您使用的是阿里云消息队列RocketMQ版，在对接Dataphin进行数据开发时，您需要先完成RocketMQ数据源的创建。更多阿里云消息队列RocketMQ版信息，请参见什么是消息队列RocketMQ版。权限说明仅支持拥有新建数据源权限点的自定义全局...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

数据安全概述

密切结合生产开发场景：在开发生产过程中，资产安全与数据流转场景紧密结合，保障在Dataphin数据开发周期中的数据安全。相关概念模块概念概念解释敏感数据识别数据分级数据分级是对数据的敏感等级的设定，用于对数据的敏感等级进行...

数据安全概述

密切结合生产开发场景：在开发生产过程中，资产安全与数据流转场景紧密结合，保障在Dataphin数据开发周期中的数据安全。相关概念模块概念概念解释敏感数据识别数据分级数据分级是对数据的敏感等级的设定，用于对数据的敏感等级进行...

准备环境

本案例提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本案例使用 数据开发（DataStudio）（旧版）进行数据加工。EMR环境准备创建EMR集群本教程需要您创建一个EMR集群，用于集成到...

创建OceanBase数据源

如果您使用的是阿里云数据库OceanBase，在对接Dataphin进行数据开发或将Dataphin数据写入至OceanBase时，您需要先完成OceanBase数据源的创建。更多OceanBase信息，请参见什么是OceanBase。权限说明仅支持拥有新建数据源权限点的自定义...

创建Tablestore数据源

如果您使用的是阿里云Tablestore，在对接Dataphin进行数据开发或将Dataphin的数据写入至Tablestore的场景中，您需要先完成Tablestore数据源的创建。更多阿里云Tablestore信息，请参见什么是表格存储。权限说明仅支持拥有新建数据源权限...

准备环境

DataWorks产品准备本案需确保您已开通DataWorks产品，若您账号下没有DataWorks产品，需在 大数据开发治理平台 DataWorks 页面进行开通，详情请参见：购买指引。EMR Serverless Spark 工作空间准备本案例采用EMR Serverless Spark作为...

创建OSS数据源

如果您使用的是阿里云对象存储OSS，在对接Dataphin进行数据开发或将Dataphin的数据写入至OSS时，您需要先完成OSS数据源的创建。更多OSS信息，请参见什么是对象存储OSS。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理...

管理控制

大模型服务为您提供高效部署、安全通信与便捷调用的一站式能力，您可以基于DataWorks的Serverless资源组轻松完成模型部署，并直接在数据集成、数据开发任务中调用大模型。更多信息，请参见大模型服务管理。镜像管理在控制台左侧导航栏，...

创建Amazon S3数据源

如果您使用的是Amazon S3，在对接Dataphin进行数据开发或将Dataphin的数据写入至Amazon S3时，您需要先完成Amazon S3数据源的创建。更多Amazon S3信息，请参见什么是Amazon S3。权限说明仅支持拥有新建数据源权限点的自定义全局角色和 ...

创建Tablestore数据源

如果您使用的是阿里云Tablestore，在对接Dataphin进行数据开发或将Dataphin的数据写入至Tablestore的场景中，您需要先完成Tablestore数据源的创建。更多阿里云Tablestore信息，请参见什么是表格存储。权限说明仅支持拥有新建数据源权限...

创建OSS数据源

如果您使用的是阿里云对象存储OSS，在对接Dataphin进行数据开发或将Dataphin的数据写入至OSS时，您需要先完成OSS数据源的创建。更多OSS信息，请参见什么是对象存储OSS。权限说明仅支持拥有新建数据源权限点的自定义全局角色和超级管理...

创建Amazon S3数据源

如果您使用的是Amazon S3，在对接Dataphin进行数据开发或将Dataphin的数据写入至Amazon S3时，您需要先完成Amazon S3数据源的创建。更多Amazon S3信息，请参见什么是Amazon S3。权限说明仅支持拥有新建数据源权限点的自定义全局角色和 ...

创建MaxCompute数据源

数据源配置选择需要配置的数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类打标，如何创建标签，请...

旧版数据开发：绑定CDH计算资源

以下简称CDH）和CDP（Cloudera Data Platform，以下简称CDP）集群对接的能力，您可在DataWorks中注册CDH及CDP集群，进行任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和治理操作。背景信息 CDH是Cloudera的开源平台...

创建MongoDB数据源

通过创建MongoDB数据源能够实现Dataphin读取MongoDB的业务数据或向MongoDB写入数据。...测试结果为成功有风险时，代表应用集群连接成功、调度集群连接失败，当前数据源无法用于数据开发和集成。您可以单击图标查看日志信息。

数据开发：开发者

本文以使用MaxCompute数据源，在DataWorks上运行MaxCompute作业任务为例，为您介绍开发人员如何使用数据开发（DataStudio）创建一个周期调度任务，帮助您快速了解数据开发（DataStudio）模块的基本使用。前提条件已完成开发前的环境准备，...

什么是EMR Serverless Spark

该产品为企业提供了一站式的数据平台服务，包括任务开发、调试、调度及运维等功能，显著简化了数据处理与模型训练的全流程。同时，它100%兼容开源Spark生态，能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark，企业可以...

开发ODPS SQL任务

SQL函数 MaxCompute支持使用内建函数和自定义函数进行数据开发及分析，内建函数详情请参见内建函数概述，自定义函数详情请参见 MaxCompute UDF概述。下面以一个简单示例为您介绍SQL函数的使用。内建函数：内建函数为MaxCompute自身预置的...

创建业务流程

DataWorks的业务流程开发结构满足根据业务视角来组织数据开发任务的需求，也提供了周期业务流程和手动业务流程两种，以满足需要周期性调度和无需周期性调度手动触发运行的场景。本文为您介绍如何创建、设计、提交和查看业务流程，...

DataWorks on EMR权限管控说明

DataWorks功能模块使用权限在DataWorks运行EMR任务时，您需要拥有DataWorks数据开发（DataStudio）、数据地图、数据质量、智能监控等功能模块的使用权限，以便执行开发任务及开发后的运维、质量管控操作。DataWorks功能模块权限，详情请...

使用Hologres动态表

前提条件已创建新的工作空间并勾选使用新版数据开发（Data Studio），并已完成资源组的绑定，详情请参见创建工作空间。已创建Hologres数据源，详情请参见绑定Hologres计算资源。已在工作空间绑定Hologres计算资源，并通过连通性测试，...