大数据分析和大数据开发-大数据分析和大数据开发文档介绍内容-移动阿里云

锁分析

当面临数据库的死锁问题时，您可以使用锁分析功能，直观地查看和分析数据库发生的死锁，从而快速定位和解决死锁问题，确保数据库的稳定运行。前提条件目标数据库引擎为：RDS MySQL 自建MySQL 目标数据库实例已接入DAS，并且接入状态显示为...

数据保护伞

不同敏感级别的数据管控原则和数据开发要求存在差异。DataWorks提供了内置的分类分级模板，您也可基于业务需要，自定义分类分级名称。配置敏感数据分类分级配置敏感数据识别规则根据数据的来源、用途，定义敏感字段类型配置敏感数据规则...

个人开发环境

通过这些功能，Data Studio为您提供了一个高效、灵活且强大的开发环境，使您能够更便捷地进行数据处理、分析和模型训练等工作，从而提高开发效率和代码质量。产品计费个人开发环境实例创建时需要指定资源组和CU，根据运行时长收取资源组...

外部数据包装器

地理空间数据分析和查询 Ganos FDW使得PostgreSQL可以直接查询和分析外部数据源中的地理空间数据。用户可以使用SQL查询语言对外部表进行查询，利用PostgreSQL提供的强大的地理空间分析函数和工具进行空间分析、空间关系查询、缓冲区分析等...

外部数据包装器

地理空间数据分析和查询 Ganos FDW使得PostgreSQL可以直接查询和分析外部数据源中的地理空间数据。用户可以使用SQL查询语言对外部表进行查询，利用PostgreSQL提供的强大的地理空间分析函数和工具进行空间分析、空间关系查询、缓冲区分析等...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

数据分析

仪表盘是数据分析和数据展示的画布，在仪表盘中可以做到实时的数据分析，也可以将数据制作为报表进行展示或分享。大屏是针对大屏幕的特殊数据展示画布，支持灵活自定义的样式配置。应用场景安全自助式数据分析基于DMS安全管控底座，确保...

什么是MaxFrame

Data+AI开发：对于整个分布式数据开发和模型开发过程依赖于第三方或自定义镜像的场景，MaxFrame提供完整的支持，以满足从数据处理到AI模型训练与部署的需要。使用须知支持地域华东1（杭州）、华东2（上海）、华北2（北京）、华北6...

Vertica节点

背景信息 Vertica是一个高性能的列式存储数据库管理系统（DBMS），可高速处理和查询大规模数据集，主要用于大数据分析和实时查询。更多介绍请参见 Vertica官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程执行不同引擎...

数据可视化

强大的数据分析能力，支持复杂报表和仪表盘。与阿里云生态无缝集成。学习曲线较陡，新手可能需要时间适应。高级功能可能需要额外付费。Quick BI数据可视化 Grafana 监控和分析多种数据源，实现实时数据展示。支持多种数据源，灵活性高。...

选型指南

DataV可视化产品提供了强大的页面搭建、组件渲染、交互开发和设计辅助能力，而BI产品更偏向于数据准备、建模和多维分析的能力，可视化搭建、渲染和交互能力较弱。具体请参见下表。对比项 BI商业智能软件 DataV数据可视化产品目标用户业务...

应用场景

数据报告自动化企业经常需要基于最新数据生成动态的数据分析报告，以监控业务的关键指标（KPI）。DataV-Note通过自然语言交互自动报告生成功能，能够自动将数据汇总并提取关键信息，将其转换为易于理解的图表和报告。这一过程大大减轻了...

组件操作

OpenLDAP Kyuubi Kyuubi是一个分布式和多租户的SQL网关，简化数据分析和查询处理，为数据湖查询引擎提供SQL等查询服务。Kyuubi概述连接Kyuubi Kyuubi计算引擎管理 Zookeeper Zookeeper是一个高效的分布式协调服务，用于管理和协调分布式...

行业趋势与挑战

越来越多的企业大数据分析已不再局限于传统的T+1场景，对数据的实时性分析和处理提出了更高要求。传统的批处理模式往往有数小时甚至数天的延迟，不能满足T+0的业务需要，用户要求在秒级，甚至毫秒级完成对海量数据分析。系统极复杂大数据...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点，便于您在DataWorks上进行Spark任务的开发和周期性调度。本文为您介绍...

访问数据分析功能

本文介绍访问数据分析功能的三种方式。通过顶部菜单栏直接进入数据可视化登录数据管理DMS 5.0。单击控制台左上角的图标，选择全部功能 Data+AI 数据应用 数据分析。说明若您使用的是非极简模式的控制台，在顶部菜单栏中，选择 Data+AI...

附录：预设角色权限列表（空间级）

开发该角色负责数据开发和维护工作，即在数据开发模块进行节点的开发与维护。说明如果需要进行数据开发，您需要授予RAM用户开发或空间管理员角色权限。如果需要拥有发布权限，您需要授予RAM用户运维或空间管理员角色权限。运维该角色...

应用场景

离线 T+1 批量处理(构建坚实的数据基座)在 DataWorks 数据开发(DataStudio)中，使用 MaxCompute SQL 节点，可以对 TB 甚至 PB 级的海量历史数据进行高效、低成本的批量计算、清洗和建模。强大的智能调度系统负责每日凌晨自动执行这些ETL...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点，便于您在DataWorks上进行Spark任务的开发和周期性调度。本文为您介绍...

客户案例

迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID...

副本数据管理CDM（Copy Data Management）

您可以在沙箱功能中快速创建沙箱实例（RDS应急实例），让您的备份数据快速可用，且在沙箱中的读写不会影响到源数据库，同时还可以进行恢复演练、开发测试、查询分析和应急容灾等其他操作。背景信息在海量数据场景下，传统数据库备份服务...

管理数据集

数据集是基于特定数据库和SQL查询生成，并且以二维表呈现的一种数据集合。本文介绍创建、编辑、删除数据集的方法。...相关文档成功创建数据集后，您需要使用仪表盘来进行数据分析和制作可视化报表。具体操作，请参见仪表盘。

进阶：商品订单畅销类目分析

数据清洗：在DataWorks的数据开发模块中，对业务数据进行处理、分析和挖掘。数据展示：在DataWorks的数据分析模块中，将分析结果转化为图表，便于业务人员理解。周期性调度：为数据同步和数据清洗流程配置周期性调度，使其定时执行。本教程...

创建EMR Presto节点

Presto（即PrestoDB）是一款灵活、可扩展的分布式SQL查询引擎，支持使用标准的SQL查询语言进行大数据的交互式分析查询，DataWorks为您提供EMR Presto节点，便于您在DataWorks上进行Presto任务的开发和周期性调度。本文为您介绍使用EMR ...

我是安全管理员

集成与开发（DTS）数仓开发数仓开发以数据库为主要计算引擎，融合数据库生态中多种工具和服务（如DTS、DLA等），让用户可以轻松拥有数据仓库进行开发和管理。任务编排任务编排主要用于编排各类任务并进行调度执行，通过创建一个或多个...

快速体验

数据开发与调度：大数据开发治理平台 DataWorks数据开发（必选）、DataWorks运维中心（必选），基础版DataWorks已包含数据开发和运维中心功能。数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据...

基本概念

每个项目都是一个数据分析地图，拥有独立的数据源和分析图层。数据源数据源是项目中用来生成可视化分析地图的数据来源，用户可以数据中心中上传体验数据和添加数据库数据。表类型项目中支持多种表格类型，每种表格的显示图标都不相同...

什么是DataWorks

适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种大数据和AI计算服务，为数据仓库、数据湖、湖仓一体、Data+AI解决方案提供全链路智能化的数据集成、大数据AI一体化开发、数据分析与主动式数据...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

功能特性

概述快速入门逻辑数仓逻辑数仓具有强大的数据源管理能力，可以实现将企业的异构数据源进行逻辑聚合，形成物理分散、逻辑统一的虚拟数仓，然后快速地提供数据分析和访问服务，满足业务人员、BI分析师、运营人员等各种角色的需求。...

EMR Presto节点

Presto（即PrestoDB）是一款灵活、可扩展的分布式SQL查询引擎，支持使用标准的SQL查询语言进行大数据的交互式分析查询，DataWorks为您提供EMR Presto节点，便于您在DataWorks上进行Presto任务的开发和周期性调度。本文为您介绍使用EMR ...

实践示例：E-MapReduce底层脱敏使用方法

本示例以数据开发/数据地图展示脱敏和 数据分析展示脱敏为主。数据开发/数据地图展示脱敏下的二级场景名：开发展示。数据分析展示脱敏下的二级场景名：SQL分析。新增脱敏规则完成脱敏场景创建后，即可单击右上角的脱敏规则来新建脱敏...

我是DBA

集成与开发（DTS）数仓开发数仓开发以数据库为主要计算引擎，融合数据库生态中多种工具和服务（如DTS、DLA等），让用户可以轻松拥有数据仓库进行开发和管理。任务编排任务编排主要用于编排各类任务并进行调度执行，通过创建一个或多个...

产品教程

数据集成数据开发简单开发应用教程本教程将指引您完成一个完整的数据开发和周期调度运维操作，适用于各种数据开发场景。MaxCompute 数据集成数据开发运维中心 数据分析与可视化相关教程说明教程使用的计算引擎涉及模块使用公开...

绑定Lindorm计算资源

您可参考设置全局Spark参数来自定义全局的SPARK参数，并设置全局参数的优先级是否高于特定模块（如数据开发、数据分析和运维中心）内的局部参数。以下将为您介绍如何设置全局SPARK参数。背景信息 Apache Spark是一个用于大规模数据分析的...

使用公开数据集进行数据查询、分析和可视化

公开数据集列表类型数据集数据来源及说明数据类型数字商业阿里电商数据集本数据集来源天池阿里移动推荐算法挑战赛，基于阿里巴巴100万条脱敏的商品数据，可以基于各类商品、操作、时间等字段，体验阿里云大数据分析能力。...

我是管理员

集成与开发（DTS）数仓开发数仓开发以数据库为主要计算引擎，融合数据库生态中多种工具和服务（如DTS、DLA等），让用户可以轻松拥有数据仓库进行开发和管理。任务编排任务编排主要用于编排各类任务并进行调度执行，通过创建一个或多个...