大数据处理的基本流程-大数据处理的基本流程文档介绍内容-移动阿里云

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

轮播页面

6000000000499-2-tps-400-240.png"}]请求大屏轮播数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如轮播页面配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终...

轮播页面

动作动作说明请求大屏轮播数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如轮播页面配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

数仓构建流程

维度属性是查询约束条件、分组和报表标签生成的基本来源，是数据易用性的关键。度量：在维度建模中，将度量称为事实，将环境描述为维度，维度是用于分析事实所需要的多样环境。度量通常为数值型数据，作为事实逻辑表的事实。指标：指标分为...

处理接口

根据时间轴的特性，如果您需要时间轴变化的同时，等值面的数据也发生变化，那么可以开发一个接口或者数据库，能根据时间参数来获取不同时间段的全国各个监测站点的数据。本文档为您介绍如何使用Node.js完成接口的开发和发布（您也可以使用...

2024年10月至2025年3月

内置类型新增JSON_ELEMENT_T、JSON_OBJECT_T、JSON_ARRAY_T类型支持，增强JSON数据处理的灵活性，支持更复杂的JSON操作场景。支持 XmlType 的 extract 和 getStringVal 函数，扩展XML数据处理能力，便于高效提取和操作XML数据中的目标内容...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

非结构化处理函数

同时，系统提供了相应的OSS文件数据处理函数，详情请参见 OBJECT TABLE定义。函数功能 GET_DATA_FROM_OSS 读取一个对象的部分或全部内容，并以二进制形式返回。GET_SIGNED_URL_FROM_OSS 生成用于下载或上传OSS数据的预签名URL，使用户通过...

外部表概述

该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据处理的主要入口，可实现EB级别离线数据的快速处理和存储。随着大数据业务的...

什么是EMR Serverless Spark

该产品为企业提供了一站式的数据平台服务，包括任务开发、调试、调度及运维等功能，显著简化了数据处理与模型训练的全流程。同时，它100%兼容开源Spark生态，能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark，企业可以...

离线同步常见问题

LogHub 读取LogHub同步某字段有数据但是同步过来为空读取LogHub同步少数据读取LogHub字段映射时读到的字段不符合预期 Kafka 读取kafka配置了endDateTime来指定所要同步的数据的截止范围，但是在目的数据源中发现了超过这个时间的数据 ...

数据标准概述

Dataphin支持创建并管理数据标准，以保障数据的标准化生产与管理，节约数据应用和处理的成本。5分钟快速了解背景信息数据标准目标是为业务、技术和管理提供服务和支持。数据标准管理的过程就是对数据以及数据的属性信息的标准化定义...

数据标准概述

Dataphin支持创建并管理数据标准，以保障数据的标准化生产与管理，节约数据应用和处理的成本。5分钟快速了解背景信息数据标准目标是为业务、技术和管理提供服务和支持。数据标准管理的过程就是对数据以及数据的属性信息的标准化定义...

功能发布记录

新增支持大规模Oracle与应用的迁移蓝图规划与评估，可帮助客户梳理复杂的数据库与大规模应用的整体关联关系、评估整体兼容性、评估应用和数据库的整体改造点及改造方案、并针对复杂场景提供分批改造建议、提供针对各应用的sql兼容性及改造...

数据服务概述

联表、查询条件复杂、数据处理逻辑复杂的，可以通过脚本自定义查询SQL创建API。数据服务管理和运维能力：支持草稿态、开发态、生产态隔离：开发态测试查询开发环境的数据，生产态调试查询生产环境数据。支持鉴权、资产转交等服务管理能力：...

数据服务

联表、查询条件复杂、数据处理逻辑复杂的查询，可以通过脚本自定义查询SQL创建API。数据服务管理和运维能力：支持草稿态、开发态、生产态隔离：开发态测试查询开发环境的数据，生产态调试查询生产环境数据。支持鉴权、资产转交等服务管理...

AI辅助处理

模型名称负责智能数据处理的模型，按需选择。API Key 访问模型的API KEY，请前往模型提供商获取。阿里云百炼平台：获取百炼API Key。阿里云PAI模型市场：前往部署的EAS任务，进入在线调试，获取Token，将其作为API KEY填写到此处。处理...

数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控，您可以构建属于自己的数据质量保障体系。数据质量管理的流程图如下。数据质量管理的流程说明如下：分析业务场景，对数据流转链路上的整个依赖关系，进行资产...

DataWorks数据集成

对于数据导出，请登录 AnalyticDB PostgreSQL版的管理控制台进行IP 白名单设置，详情请参见添加白名单数据导入源端的数据源需要在DataWorks管理控制台进行添加，数据源添加的详细步骤请参考配置AnalyticDB for PostgreSQL数据源配置...

图数据库

图数据库（Graph Database，简称GDB）是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言，可以帮您快速构建基于高度连接的数据集的应用程序。

查看资源用量大盘

资源用量大盘为您展示当前租户下已使用的数据处理单元总量和按任务类型分别统计的消耗趋势以及按项目粒度统计的消耗增量排行，帮助您了解数据处理单元的消耗情况以及时调整资源规格配置。本文为您介绍如何查看资源用量大盘。前提条件需...

数据分析及报告制作

操作流程数据准备。进行数据分析及报告制作前，您需先将您的数据库、数据仓库及本地文件数据接入DataV-Note，作为DataV-Note的原始数据集，供分析单元进行查询分析。详情请参见数据源管理。数据分析及报告制作。数据预处理。您可按需创建...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

操作流程

流程图流程说明操作说明添加数据添加矢量数据添加矢量类数据，具体操作，请参见添加矢量数据。添加栅格数据添加栅格类空间数据，具体操作，请参见添加栅格数据。添加倾斜摄影数据添加倾斜摄影类数据。具体操作，请参见添加倾斜...

概览

为了更好地指导您使用数据管理DMS（Data Management），DMS推出解决方案系列文档，旨在通过最佳实践（Step by Step）的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 DMS为在线流程化系统，可统一管理企业内...

数据服务

加工后的数据供应用读取用户使用DMS数仓开发对数据进行加工汇总后，希望在应用中读取这部分加工后的数据进行业务处理，则可通过API的方式快速输出。当需要变更读取的逻辑时，只需要调整API的查询逻辑，而不需要重新发布应用。使用流程图 ...

SparkSQL自适应执行

而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，例如reduce阶段要处理的数据可能是10 MB，也有可能是100 GB，如果使用同一个值对实际运行效率会产生很大影响，例如10 MB的数据一个task就可以解决，...

什么是EMR Serverless StarRocks

您无需在上游应用中进行数据转换操作，便可以直接在使用物化视图的过程中实现数据的转换与加工，简化了数据处理流程。数据湖分析 StarRocks不仅能高效地分析本地存储的数据，也可以作为计算引擎直接分析数据湖中的数据。您可以通过...

逻辑节点配置

节点作为逻辑处理的基本单元，负责执行特定操作和数据处理；锚点则是节点的连接接口，用于构建节点间的逻辑关系。说明在配置逻辑节点前，请确保您已经添加了对应的图层节点。如果还未添加，请参见图层节点配置进行添加。节点配置面板在...

风险识别规则响应案例

DataWorks通过OpenEvent能力为您提供消息订阅能力，您可以将服务程序注册为DataWorks的扩展程序，通过扩展程序来捕捉并响应订阅的事件消息，以此实现对特定事件进行消息通知与流程管控。本文以“实时阻断或审批超过1000条数据的下载行为”...

什么是数据湖构建

DLF与多个阿里云大数据计算引擎无缝对接，打破数据孤岛，帮助用户快速实现云原生数据湖及OpenLake解决方案的构建与管理。该平台能够实现元数据的统一、湖表格式的统一以及数据存储的统一，显著简化客户在数据湖构建和管理过程中的运维工作...

运维阶段

开发人员根据需求将代码发布上线后，还需要及时处理数据、程序、调度、监控告警等的异常事件，保障数据产出时效、程序高效运行和生产稳定性。背景信息数据开发人员主要需要处理以下事项：程序异常处理、性能优化。调度异常处理。数据质量...

组件数据源配置

数据源配置是创建组件和展示业务数据的关键步骤，具有数据接入、数据处理和数据实时更新的功能。本文介绍如何进行配置组件数据。功能说明 DataV-Board 支持接入各种业务数据，包括静态数据、数据库、应用网关等。通过数据源配置，将业务...

查看数据处理任务运维信息

您可以通过查看数据处理任务运维信息，快速定位任务失败的原因。本文以倾斜数据处理后为例，介绍如何查看数据处理任务运维信息。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择...

MaxFrame API

MaxFrame API包含两大类，一类是为了方便用户进行数据处理，用于兼容各类标准库（如Pandas）的API，另一类是为了任务的分布式执行而引入的MaxFrame特有API。使用MaxFrame的API开发作业，您可以享受到与标准数据库类似的数据操作体验，并将...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

如何处理数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。当单数据分片节点...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

配置检查项

在进行数据发布前，可通过检查项对数据开发功能相关的约束进行检查，当检查出不符合约束规范的内容时，系统会生成影响开发流程正常执行的问题事件，您可基于该事件处理暴露的问题，以保障数据开发流程可以正常执行。本文为您介绍如何查看并...