大数据批处理技术-大数据批处理技术文档介绍内容-移动阿里云

数据开发

数据开发为用户提供一站式计算节点开发能力，通过对数据加工流程的开发、部署、调试等环节的一体化管理，数据开发实现数据加工工作流编排、加工逻辑的复用，大幅提高数据开发效率。数据开发帮助用户优化智能系统的架构，提高系统的工程化...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

云原生多模数据库Lindorm助力蚂蚁链IoT数据降本

业务挑战业务增速快，数据总量不断增大，MySQL出现性能瓶颈日增数据量大，一年数据增量超6TB，存储成本压力大数据冷热区分明显，和数据生成时间强相关数据需要实时归档到离线进行分析解决方案阿里云Lindorm历经阿里众多核心服务的大...

应用场景

目前，混合云数据库管理HDM+CloudDBA+自治能力，正式升级为数据库自治服务DAS，将锻炼出来的技术，通过云这样的开放平台汇聚起来。2020年的双11，DAS以更加稳定、完备的自治能力，护航范围兼顾集团和云上客户。在集团，依托全网覆盖的数据...

PolarDB HTAP实时数据分析技术解密

在按列进行海量数据分析时，按行从磁盘读取数据存在非常大的IO带宽浪费，其次，行式存储格式在处理大量数据时会大量拷贝不必要的列数据，对内存读写效率也存在冲击。PolarDB 并行查询突破CPU瓶颈 PolarDB团队开发的并行查询框架（Parallel ...

概述

实时分析 OceanBase 基于分布式架构，在保障高性能的交易处理同时，能够完成实时分析、跑批等分析场景，一套引擎支持 OLAP+OLTP 工作负载，从根本上保持数据的一致性，并最大程度降低数据冗余，帮企业大幅降低总成本。OceanBase 是全球唯一...

数据传输服务（上传）场景与工具

实时数据通道：DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish）、订阅（Subscribe）和分发功能，支持流式数据归档至MaxCompute。功能介绍批量数据通道上传使用批量数据通道上传数据时，可以通过单个...

2021年

无 MaxCompute 支持通过湖仓一体方式读取OSS上的Hudi或 Delta Lake格式存储 Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、OSS产品提供了支持Delta或Hudi 存储机制的湖仓一体...

异构数据源访问

若您需要通过 AnalyticDB PostgreSQL版访问外部异构数据源（HDFS、Hive和JDBC）时，可以使用异构数据源访问功能将外部数据转换为 AnalyticDB PostgreSQL版数据库优化后的格式进行查询和分析。功能说明外部数据源管理提供高性能的结构化...

列存索引技术架构介绍

技术背景 MySQL生态HTAP数据库解决方案 MySQL是一款主要面向OLTP型场景设计的开源数据库，开源社区的研发方向侧重于加强其事务处理能力。如提升单核性能、多核扩展性和增强集群能力，以提升可用性等。在处理大数据量下复杂查询所需要的能力...

导入与导出

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

配置并管理实时同步任务

数据集成使用MaxCompute引擎同步数据通道进行数据上传和下载（同步数据通道SLA详情请参见数据传输服务（上传）场景与工具），请根据MaxCompute引擎同步数据通道SLA评估数据同步业务技术选型。创建实时同步任务创建整库实时同步节点。配置...

验证分析型查询请求能力

它适用于处理大规模、多维的数据集，能够帮助用户进行数据分析、数据挖掘、业务决策等。并行执行 OceanBase 数据库的并行执行指的是在分布式架构下进行的并发处理。OceanBase 数据库采用了分布式架构，将数据分片存储在不同的节点上，通过...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能上传与下载 DataWorks的上传与下载模块，提供了便捷的数据上传功能，支持将多种来源（例如，本地文件、OSS文件）的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作，致力于为您...

风险识别管理（新版）

风险识别管理提供了多维度的关联分析及算法，智能化的分析技术帮助您通过风险识别规则，主动发现风险操作并预警，使用可视化方式进行一站式审计。DataWorks内置了多种场景的风险识别规则，您可以直接使用，也可以根据业务场景自定义规则。...

概述

为应对数据爆炸式增长的挑战，PolarDB分布式版本基于对象存储设计了一套列存索引（Clustered Columnar Index，CCI）功能，支持将行存数据实时同步到列存存储上，并支持以下功能：在线事务处理和实时数据分析的一体化能力，满足OLTP和OLAP...

PolarDB PostgreSQL版（兼容Oracle）间的迁移

2.0版本引入了新的查询优化算法和存储引擎，提高了查询速度和并发处理能力，能够更快地处理大量数据，提升数据库的响应能力和性能。此外，2.0版本还引入了许多新的功能和增强功能，提供更好的用户体验和开发者工具。例如，改进了对JSON数据...

Serverless模式

AnalyticDB PostgreSQL版全新推出Serverless模式，利用云基础设施提供的资源池化和海量存储能力，结合传统MPP数据库技术、离在线一体化技术和Serverless技术，实现了计算存储分离、秒级扩缩容和多实例数据实时共享的特性。简介 AnalyticDB...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

Db2 for LUW迁移至PolarDB MySQL版

其他限制由于DTS基于 Db2 for LUW 的CDC复制技术，将 Db2 for LUW 数据库的增量更新数据迁移到目标库中，但是CDC复制技术自身具有限制，请参见 CDC复制技术所支持数据类型的限制。执行数据迁移前需评估源库和目标库的性能，同时建议业务低...

Db2 for LUW迁移至RDS MySQL

其他限制由于DTS基于 Db2 for LUW 的CDC复制技术，将 Db2 for LUW 数据库的增量更新数据迁移到目标库中，但是CDC复制技术自身具有限制，请参见 CDC复制技术所支持数据类型的限制。执行数据迁移前需评估源库和目标库的性能，同时建议业务低...

Db2 for LUW同步至RDS MySQL

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

迁移 RDS PostgreSQL 实例的数据至 OceanBase 数据库 ...

本文为您介绍如何使用数据传输迁移 RDS PostgreSQL 实例的数据至 OceanBase 数据库 Oracle 租户。重要如果数据迁移项目长期处于非活跃状态（项目状态为失败、已暂停或已完成），受增量日志保留时长等影响，项目可能无法恢复。数据传输...

迁移 OceanBase 数据库 Oracle 租户的数据至 Oracle ...

背景信息在数据传输控制台创建从 OceanBase 数据库 Oracle 租户迁移数据至 Oracle 数据库的数据迁移项目，您可以通过结构迁移、全量迁移和增量同步，无缝迁移源端数据库中的存量业务数据和增量数据至 Oracle 数据库。同时，数据传输支持将...

什么是ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

基于混合负载的查询优化

完备数据仓库，首要解决的问题包括：如何更好的支持数据库场景下的交互式分析以及大数据场景下的复杂批计算场景；如何一站式的解决混合负载下的服务能力。新一代云原生数据仓库AnalyticDB MySQL版提供一站式的数仓服务。混合计算引擎提供...

流式ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

Spark SQL执行方式

AnalyticDB for MySQL 湖仓版（3.0）支持使用批处理和交互式两种方法执行Spark SQL，两种执行方式都直接与 AnalyticDB for MySQL 的元数据服务连通，可以读写 AnalyticDB for MySQL 的库表。本文介绍批处理和交互式两种执行方式的注意事项...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

版本发布记录

深度集成的生态接入融合分析和数据回流能力目前支持如下数据源的接入融合分析和数据回流能力，包括对象存储OSS上7种以上结构化、半结构化、以及多种压缩格式的数据文件，表格存储，AnalyticDB，云数据库版或自建数据库（MySQL、...

数据传输与迁移概述

MaxCompute提供多种渠道，以便您从业务系统或外部数据源写入数据到MaxCompute，或者从MaxCompute写出数据到外部系统或外部数据源。数据传输渠道 SDK-Tunnel渠道外表（湖仓一体）JDBC渠道场景数据写入MaxCompute 离线数据批量写入（数据...

添加处理后数据到数据管理

数据处理后，需要将处理后的数据添加到数据管理中，以便被用于数仓建设、标签管理等数据中台任务。本文以倾斜数据处理后为例，介绍如何添加处理后数据到数据管理。前提条件已新建数据处理任务，具体操作，请参见新建数据处理任务。操作...

影响查询性能的因素

如果查询需要处理的数据量较大，就可能会长时间占用大量的资源，导致整体查询效率降低，进而影响最终的查询效果。此外，如果 AnalyticDB MySQL版中表存储的数据量较大，那么在执行索引过滤、明细数据读取等操作时也会出现相互争抢磁盘I/O...

查看数据处理任务运维信息

您可以通过查看数据处理任务运维信息，快速定位任务失败的原因。本文以倾斜数据处理后为例，介绍如何查看数据处理任务运维信息。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择...

Lindorm助力数禾科技业务系统实现真正的流批一体

技术亮点：高性能&低成本解决方案、基于LTS主备集群数据实时同步、Bulkload离线数据加载。客户感言从我们看中lindorm容量型存储低廉的价格决定采用阿里云Lindorm产品作为我们eventhub流批一体特征平台的底层数据库服务，阿里云Lindorm专家...

数据处理

数据处理类节点包括串行数据处理节点。本文介绍在蓝图编辑器中，配置数据处理类节点的方法。串行数据处理节点串行数据处理 节点，是使用串行方式来处理一个事件。使用场景：例如，小数0.835要转换成整数百分比83%，可经过：单位转换（83.5...

节点类型说明

本文按照节点离线、在线和流式的分类，分别介绍各节点类型对应能处理的数据类型以及运行引擎。计算类节点计算类节点分为离线类、在线和流式类节点主要用于处理各种不同的数据。节点分类节点说明离线节点更多详细信息，请参见离线类...

查询报错问题

若没有很好的处理方法，请联系分析型数据库MySQL版技术支持。若在现有业务基础上无法进行SQL优化，可考虑DB资源扩容，甚至是调整资源模型规格。查询时报错，提示 scanRows exceed limit 分析型数据库MySQL版查询时报错，错误信息为：...