大数据开发需要用到那些软件

_相关内容

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/Hologres等数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万名...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定后您可以创建计算任务并进行周期调度。使用...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源,管理 OceanBase 数据库中的数据,通过数据集成...

产品生态

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

什么是DataWorks

DataWorks是一站式智能大数据开发治理平台,适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种数据和AI计算服务,为数据仓库、数据湖、湖仓一体、Data+AI解决方案提供全链路智能化的数据集成、...

离线同步数据质量排查

通过讲述数据集成数据同步的原理机制,理解数据同步的过程,进而对数据同步的执行效果有判断能力,判断数据同步效果具体包括:数据同步的数据量、目标端数据实际数量等。本文将为您列举一些常见数据质量方面的场景,方便您排查是否存在符合...

免费试用

在左侧导航栏 产品类别 下依次打开 数据计算 数据开发与服务,然后在右侧找到 大数据开发治理平台DataWorks 的免费试用卡片,单击 立即试用。重要 免费试用抵扣包仅适用于初次使用DataWorks产品的新用户,老客户进入此页面将展示为不符合...

权限自查建议

这种情况符合数据开发的实际情况,如果可以SQL处理,通常优先使用SQL处理数据。某账号提交的任务非常多,经了解,其将自己的AccessKey通过SDK的方式配置了一个查询软件,并提供多人进行查询。不推荐该方式,请谨慎开放权限,避免多人共用...

产品形态选型

用户仅需关注作业逻辑与数据开发。OLAP数据分析、湖仓加工与分析 需要高并发查询、多维分析,兼容 MySQL 协议。EMR Serverless StarRocks 通过向量化、MPP架构以及全新CBO等技术,为用户提供最优性能的数据分析服务。跨引擎联邦查询,多种...

AI辅助处理

功能介绍 适用客户:适用于需要数据同步过程中对数据进行高级分析和处理的企业用户,特别是那些希望利用AI技术提升数据质量、挖掘数据价值的公司。无缝嵌入同步链路:将AI处理作为数据集成中的一个内置处理环节,与源端读取、目标端写入...

基本概念

本文为您介绍DataWorks中,数据集成、数据建模、数据开发、数据分析、数据服务等模块开发过程中涉及的相关基本概念。通用概念 工作空间 工作空间 是DataWorks管理任务、成员,分配角色和权限的基本单元。工作空间管理员可以为工作空间加入...

数据开发:开发者

本文以使用MaxCompute数据源,在DataWorks上运行MaxCompute作业任务为例,为您介绍开发人员如何使用数据开发(DataStudio)创建一个周期调度任务,帮助您快速了解数据开发(DataStudio)模块的基本使用。前提条件 已完成开发前的环境准备,...

数据推送

选择数据源 选择需要进行数据推送的 数据源类型,数据源名称,以及 数据源环境(您可根据本次数据推送的开发表还是生产表来选择数据源环境),确定需要进行数据推送的数据表所在环境。若您需要实操,请确认您准备工作阶段创建的sales表所在...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

工作空间模式区别

需要授权数据开发人员“DataWorks开发角色”即可完成所有数据仓库开发工作。安全、规范。具备安全、规范的代码发布管控流程(包含代码评审、代码DIFF查看等功能),保障生产环境稳定性,避免因代码逻辑引起的脏数据蔓延或任务报错等非...

大数据开发治理平台 DataWorks系统权限策略参考

本文描述大数据开发治理平台 DataWorks支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云...

基于MaxCompute UDF分析IP来源

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。在 DataStudio(数据开发)页面的 数据开发 页签下,右键单击目标 业务流程,选择 新建节点 ...

ETL工作流快速体验

本文提到的ETL工作流均需要未开启 使用新版数据开发(Data Studio)的工作空间,即在创建工作空间时,不勾选 使用新版数据开发(Data Studio)。导入ETL工作流模板 您可以将DataWorks ETL工作流模板直接导入至目标工作空间进行体验,具体...

什么是MaxFrame

Data+AI开发:对于整个分布式数据开发和模型开发过程依赖于第三方或自定义镜像的场景,MaxFrame提供完整的支持,以满足从数据处理到AI模型训练与部署的需要。使用须知 支持地域 华东1(杭州)、华东2(上海)、华北2(北京)、华北6...

数据开发与运行

本文为您介绍数据开发的相关问题。资源 如何在pyodps调用第三方包?如何在节点内使用资源?如何下载上传到DataWorks的资源?超过30M的资源如何上传?通过odpscmd上传的资源如何在DataWorks上使用?在DataWorks如何上传自己本地编写的jar并...

数据开发概述

Data Studio是阿里巴巴基于15年数据经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成,Data Studio...

数据开发(Data Studio)(新版)

Data Studio是阿里巴巴基于15年数据经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成,Data Studio...

API概览

本产品(大数据开发治理平台 DataWorks/2024-05-18)的OpenAPI采用 RPC 签名风格,签名细节参见 签名机制说明。我们已经为开发者封装了常见编程语言的SDK,开发者可通过 下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能...

数据开发概述

进入数据开发 登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。说明 数据开发仅支持在PC端Chrome浏览器69以上版本使用。模块介绍 能力概览 数据开发...

数据开发(DataStudio)(旧版)

进入数据开发 登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。说明 数据开发仅支持在PC端Chrome浏览器69以上版本使用。模块介绍 能力概览 数据开发...

基于MaxCompute UDF分析IP来源

在 Data Studio(数据开发)页面左侧导航栏单击 按钮,进入 数据开发 页面的 项目目录。单击项目目录右侧的,选择 新建节点 MaxCompute MaxCompute SQL。在 新建节点 对话框中输入节点 名称,并单击 确认。在 MaxCompute SQL 节点编辑页面...

调度周期:周调度

配置示例 配置路径 您需要进入数据开发节点的编辑页面,单击右侧导航栏的 调度配置,在 调度配置 时间属性 区域配置节点的调度周期。场景示例 配置详情 目标任务配置在每周一、周五两天定时运行,则在周一、周五生成的实例会正常调度执行,...

调度周期:月调度

配置示例 配置路径 您需要进入数据开发节点的编辑页面,单击右侧导航栏的 调度配置,在 调度配置 时间属性 区域配置节点的调度周期。场景示例 配置详情 目标任务配置在每月最后一天运行,则每月最后一天生成的实例会正常调度执行,而其它...

操作权限控制

任务执行环境 实时场景 数据开发执行任务(开发环境执行任务)场景一:select col1 from tablename 个人账号访问开发环境下该表。即个人账号访问:projectname_dev.tablename。场景二:select col1 from projectname.tablename 个人...

实践示例:MaxCompute底层脱敏使用方法

说明 如果需要在DataWorks界面上展示脱敏效果,需要打开 数据开发/数据地图展示脱敏。创建数据脱敏场景更多内容请参见 创建数据脱敏场景。新建数据脱敏规则。(可选)白名单配置。若脱敏规则指定的数据不需要对某些用户进行脱敏展示,您可...

准备环境

本案例提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。本教程使用 数据开发(DataStudio)(旧版)进行数据加工。MaxCompute环境准备 一、开通MaxCompute产品 本教程基于MaxCompute实现,请...

旧版资源组升级

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。在左侧导航栏,单击 数据开发,找到目标业务流程,右键选择 批量操作。节点类型 选择为 离线同步 和...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表 类型 数据数据来源及说明 数据类型 数字商业 阿里电商数据集 本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的商品数据,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。静态数据 ...

使用OpenAPI

本文为您介绍使用大数据开发治理平台DataWorks OpenAPI的基本信息、使用限制、计费及调用说明。基本信息 版本 OpenAPI门户 支持的API列表 支持的地域 2024-05-18(新版OpenAPI)OpenAPI门户 支持的API列表 华东1(杭州)、华东2(上海)、...

准备环境

本案例提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。本教程使用 数据开发(DataStudio)(旧版)进行数据加工。MaxCompute环境准备 一、开通MaxCompute产品 本教程基于MaxCompute实现,请...

DataWorks On CDP/CDH使用说明

新增和使用Serverless资源组 二、开发环境准备 您需先在DataWorks工作空间注册 CDP或CDH 集群,才可在数据开发(DataStudio)进行数据开发工作,并以工作空间为单位管理空间成员,以便进行协同开发。类别 描述 相关文档 数据同步环境准备 ...

功能特性

DataWorks 提供一站式大数据开发与治理平台,涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力,支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成:全领域数据汇聚 DataWorks的数据...

核心收费场景解析

重要 如果您使用的是 DataWorks 标准版或更高版本,还需要支付相应的 软件版本费用。DataWorks不会同时产生 任务调度费用 和 独享调度资源组费用。若使用了独享调度资源组,则不再计算任务调度费用。数据集成场景费用 进行 数据集成 与运维...

准备环境

本案例提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。本案例使用 数据开发(DataStudio)(旧版)进行数据加工。EMR环境准备 创建EMR集群 本教程需要您创建一个EMR集群,用于集成到...

Notebook(旧版)

Notebook可以结合语言模型给业务开发、数据开发、分析师和数据运营同学赋能,提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息,以文档的形式进行交付,并在交付后,希望有工具可以替您...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用