大数据运作流程-大数据运作流程文档介绍内容-移动阿里云

管理已提交实例

已提交实例是对周期任务发起立即运行补数据操作或待提交实例生成的可运行实例。您可以对已提交实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已提交实例。已提交实例入口在Dataphin首页的顶部菜单...

管理已提交实例

已提交实例是对周期任务发起立即运行补数据操作或待提交实例生成的可运行实例。您可以对已提交实例执行重跑、终止、置为成功继续调度、暂停或恢复等操作。本文为您介绍如何查看并管理已提交实例。已提交实例入口在Dataphin首页的顶部菜单...

数据服务入门

操作流程 步骤一：创建数据源并配置网络连通性使用数据服务创建API前，需先将您的数据库或数据仓库添加为DataWorks数据源，以此作为数据服务API的数据来源。开发数据服务API时，数据服务将访问该数据源获取数据表的Schema信息，帮助您...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

管理用户账号和数据库

前提条件已购买实例，具体操作请参见购买流程。账号类型时序数据库Influxdb版实例支持两种数据库账号：管理员账号和普通账号。您可以在控制台管理所有账号和数据库，账号拥有的具体权限请参见文末账号权限列表。账号类型说明管理员...

操作流程

本文介绍数据同步的操作流程。流程图流程说明流程说明配置数据源配置数据同步的源端和目标端。数据同步的源端，是数据同步任务的起点。数据同步目标端是同步的终点，支持自定义创建目标端。同步元数据获取、更新源端和目标端的物理表...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。原理介绍数据推送节点，可以通过节点上...

数据导入

MySQL PostgreSQL 支持支持跨云/混合云数据库实时同步，需高可靠迁移的场景通过DTS导入数据 X2Doris 一键迁移：自动同步源端表结构，提供Web可视化界面，简化异构数据源迁移流程。Doris Hive Kudu StarRocks Clickhouse 不支持支持从...

冷热分层

适用场景时序类数据场景：时序类数据天然具备时间属性，数据量大，且仅执行追加操作。示例如下：IM场景：通常用户会查询最近若干条聊天记录，只有在特殊需求的时候才会查询历史数据。例如钉钉。监控场景：通常用户只会查看近期的监控，...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

数据导入方式介绍

为满足多样化的数据导入需求，AnalyticDB for MySQL 提供了多种数据导入方式，包括：通过外表导入数据、通过DataWorks导入数据、通过DTS导入数据以及使用JDBC通过程序导入数据等。您可以通过本文了解各导入方式的特性及适用场景，帮助您...

数据集成

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

Stage级别诊断结果

较大的数据量被广播 Stage输入数据倾斜 Stage输出数据倾斜较大的数据量被广播问题广播（Broadcast）是在两个相邻的Stage间，上游向下游Stage传输数据时所用的一种方法（更多详情，请参见数据输出类型）。如果某个Stage广播了较多数据，...

风险识别管理

具体如下：易用性好包含数据访问风险、数据导出风险、数据操作风险、其他风险类型等4类风险类型，并支持访问时间、敏感类型、访问量等多种维度组合识别各类风险。精准度高增加事件聚合统计比较，通过比较时间窗口内事件发生次数的...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

DeltaLake

而Delta简化了工作流程，整条数据处理过程是一条完整的、可靠的实时流，其数据的清洗、转换、特征化等操作都是流上的节点动作，无需对历史和实时数据分别处理。与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL...

操作流程

通过操作流程图及说明，您可以直观且全面的了解数据标准设计的操作流程。本文介绍数据标准设计的操作流程。采用数据元的数据标准管理根据业务需要，创建数据标准以约束建模规范，根据字段标准设置可以快速创建字段级质量规则，保证字段...

组件数据源配置

操作流程 前提条件登录 DataV-Board 7.0控制台。已准备并添加相关数据源。进入看板编辑页，并创建组件。配置数据组件默认自带静态数据，下面以柱图数据接入为例，演示如何通过静态数据、全局变量和数据源进行组件数据源配置。静态数据...

创建数据库

您可参考本文快速掌握数据库创建的基本流程，并了解如何规划数据库数量以满足业务需求。前提条件已创建RDS SQL Server实例。数据库数量限制 2008 R2数据库最大数量为50，其他SQL Server实例的数据库数量受实例规格限制，详细计算公式如下...

TPC-H

大吞吐并发读写：30 TB数据集下至少10并发查询流（Query Stream），同时启动数据更新流（Refresh Stream）进行多轮大批量数据增删操作，挑战系统并发能力及ACID能力。分布式事务验证：全面测试数据库系统事务能力，涵盖Atomic、Consistency...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

导入MongoDB数据

DataWorks（大数据开发治理平台）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，支持多种计算和存储引擎服务。本文介绍通过DataWorks将MongoDB的离线数据迁移至Lindorm宽表。背景信息有关大数据开发治理平台DataWorks，具体请...

离线同步任务运维

同一个名称的数据源可存在开发环境和生产环境两套配置，设置两个不同的数据库/实例，使任务在测试和生产调度时操作的数据隔离，确保生产环境数据的安全。功能入口登录 DataWorks控制台，切换至目标地域，单击左侧导航栏的运维中心周期...

开发指南

2.数据建模针对业务场景进行数据建模，需要确定创建数据库和时序数据表，确定时序数据表的标签、时间戳和量测值，并根据数据特征确定PRIMARY KEY用于数据分片。关于数据模型，请参见数据模型。时序引擎提供了三种Schema约束策略，分别为...

Vertica节点

数据开发（DataStudio）基于业务流程执行不同引擎的具体开发操作，因此，创建节点前需先创建业务流程，操作详情请参见创建业务流程。已创建Vertica数据源。您需先将您的Vertica数据库创建为DataWorks的Vertica数据源，才可通过该数据源...

MapReduce

MapReduce处理数据的完整流程如下：输入数据：在正式执行Map前，需要对输入数据进行分片（即将输入数据切分为大小相等的数据块），将每片内的数据作为单个Map Worker的输入，以便多个Map Worker同时工作。Map阶段：每个Map Worker读取数据...

订阅方案概览

数据订阅功能可以帮助您获取数据库的实时增量数据，您可以根据自身业务需求自由消费增量数据，并写入目标端，实现各类业务场景，例如缓存更新、业务异步解耦、异构数据源数据实时同步及含复杂ETL的多种业务场景。源库限制限制项说明网络...

数据质量

典型工作流程如下：功能介绍 DataWorks 数据质量支持对常见大数据存储（MaxCompute、E-MapReduce、Hologres、AnalyticDB 等）进行质量校验，从完整性、准确性、一致性等多个维度配置监控规则，并与调度任务关联，实现自动化校验与问题告警...

基础：购房群体简单分析

本案例指导您完成购房群体分析，帮助您掌握DataWorks的数据开发与数据分析流程。案例介绍本案例基于用户买房数据，分析不同群体的购房情况。通过DataWorks进行数据开发和数据分析。将本地数据通过DataWorks上传至MaxCompute的 bank_data ...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

实验介绍

本教程以简单的用户画像分析为例，带您了解DataWorks和EMR如何配合使用完成数据同步、数据开发和任务运维等操作。您可以通过本文了解实验背景、工作流设计、模块及实验相关数据等信息，方便顺利完成教程操作。实验设计实验背景为了更好地...

限制说明

数据过期策略和开源 Memcached 策略一致，采用 LRU 算法过期数据，但已过期数据不会被立即删除回收空间，回收空间操作由后台程序定期执行。连接处理云数据库 Memcache 版服务端不会主动关闭空闲的客户端连接。数据过期 Key 过期时间建议...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

同步数据

数据开发需基于业务流程使用对应的开发组件进行具体开发操作。在创建节点之前，您需要先新建业务流程。具体操作方法可参见创建业务流程。该业务流程的命名为：用户画像分析_MaxCompute。设计业务流程。业务流程新建完成后，将自动展开该...

DB2节点

数据开发（DataStudio）基于业务流程执行不同引擎的具体开发操作，因此，创建节点前需先创建业务流程，操作详情请参见创建业务流程。已创建DB2数据源。您需先将您的DB2数据库创建为DataWorks的DB2数据源，才可通过该数据源访问相应数据库...

同步数据

数据开发需基于业务流程使用对应的开发组件进行具体开发操作。在创建节点之前，您需要先新建业务流程。具体操作方法可参见创建业务流程。该业务流程的命名为：用户画像分析_MaxCompute。设计业务流程。业务流程新建完成后，将自动展开该...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...