大数据的计算工具-大数据的计算工具文档介绍内容-移动阿里云

资产全景

在流动页面，为您可视化展示数据引入、物理表数和逻辑表数，为您提供数据输出后的数据查询及应用功能：将鼠标悬停在数据引入模块上，为您展示的数据源个数、数据表接入量Top5 和数据表接入量Least5。数据源：统计昨天有数据同步...

功能简介

数据查询为用户提供对云计算资源中物理表基本情况的概览能力，帮助用户直观了解物理表基础信息、字段内容分布等情况，建立对数据表的宏观理解，为建立数据标准、定义数据模型、定义数据加工逻辑等工作提供基础依据。如果数据表格存储的是...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

功能特性

本文为您介绍DataV的功能特性，包括丰富的数据可视化编辑工具、专业的地理信息可视化和灵活开放的发布部署方式等。丰富的数据可视化编辑工具可视化拖拽界面，强大的编辑功能提供地图、信息、表格和控件等多种业务模块级的非图表组件，...

数据查询

数据查询为用户提供对云计算资源中物理表基本情况的概览能力，帮助用户直观了解物理表基础信息、字段内容分布等情况，建立对数据表的宏观理解，为建立数据标准、定义数据模型、定义数据加工逻辑等工作提供基础依据。如果数据表格存储的是...

数据倾斜诊断

复制分布方式通常只会用在数据量小的表中，如果数据量大的表使用复制分布方式，会导致数据急剧膨胀。哈希（HASH）分布该分布方式会根据分布键HASH值将数据分布到各个计算节点上，该方式的关键在于如何选择分布键，分布键选择不正确时，...

应用场景

前端的监控系统和大数据处理系统会利用 TSDB 的数据查询和计算分析能力进行业务监控和分析结果的实时展现。电力化工及工业制造监控分析传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测，故障发现以及业务趋势分析。...

操作手册

OSS 数据挂载会有分布式cache（集群内），所以在大规模并发读取数据时性能较好（能达到 10MB~30MB，200 台并发，读取 20G 数据）。OSS 路径必须以’/’结尾。iii.OSS 输出目录与临时本地输出目录渲染作业结束时，计算节点中的临时输出目录...

数据上传下载成本优化

合理利用ECS的公共下载资源如果您的ECS使用包月资源，可以使用Tunnel等数据同步工具，将MaxCompute数据同步到ECS，然后下载到本地。详情请参见导出SQL的运行结果。Tunnel文件上传优化小文件会消耗更多计算资源，建议当文件量积累较大时...

复合指标

由于派生指标只是针对某业务活动某段时间的数据量统计，无法满足贴近用户实际使用的业务增长率、差值计算等数据的比对需求（例如，统计某业务活动的周环比增长率）。因此，DataWorks为您提供了由派生指标通过运算规则进行计算而形成的复合...

存储成本优化

本文从数据分区、表生命周期和定期删除表3个方面为您介绍如何优化存储成本。对于存储优化而言，有三个关键点：合理地进行数据分区。设置合理的表生命周期。定期删除废表。合理设置数据分区 MaxCompute将分区列的每个值作为一个分区。您可以...

PERCENTILE_APPROX

array<double>percentile_approx(double[,double],array([,<p2>.])[,])命令说明 percentile_approx 是从编号1开始计算，假设某列有 n 条数据，计算该列的 p 百分位点，则 percentile_approx 会先对该列进行升序排序，假设排序后该列数据为...

准备工作

命令行工具实现了自动化的程序打包上传和作业提交，用户无需了解批量计算的 JSON 格式即可管理作业和集群，强烈推荐新手从命令行工具快速开始。使用控制台：适合初、中级用户，使用网页可视化界面管理作业和集群，使用控制台需要对批量...

SQL查询概述

应用场景提取并下载数据：通过SQL查询可以对计算源中的数据进行提取、聚合、过滤、排序等操作，并支持下载数据，以满足数据分析和报表生成的需求。数据可视化：通过SQL查询可以对计算源中提取的业务数据以图表的形式展示，可有效的帮助...

SQL查询概述

应用场景提取并下载数据：通过SQL查询可以对计算源中的数据进行提取、聚合、过滤、排序等操作，并支持下载数据，以满足数据分析和报表生成的需求。数据可视化：通过SQL查询可以对计算源中提取的业务数据以图表的形式展示，可有效的帮助...

操作审计事件数据迁移至MaxCompute

审计事件投递区域：选择将事件投递到大数据计算服务MaxCompute。选择投递到本账号，设置如下参数。参数描述 大数据计算服务地域被投递数据的MaxCompute项目所在地域。说明操作审计会将审计日志投递至MaxCompute指定地域下的...

简介

能够有效支撑大规模遥感影像数据和GIS栅格GRID数据的存储、查询和基础分析处理能力，包括ETL工具支持遥感影像重投影、拼接、切片、入库，支持OGC WMS/WMTS等服务发布以及基于Spark的高性能分布式计算引擎支持海量栅格图像分析和处理。...

计算与分析概述

使用不同数据模型时支持的分析工具不同，请根据实际场景选择相应分析工具。分析工具适用模型操作描述 MaxCompute 宽表模型使用MaxCompute 通过MaxCompute客户端为表格存储的数据表创建外部表，即可访问表格存储中的数据。Spark 宽...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

通过Tunnel迁移日志数据至MaxCompute

背景信息 Tunnel是MaxCompute的批量上传数据工具，适用于离线计算场景。Tunnel详细信息请参见 Tunnel使用说明。操作步骤在MaxCompute客户端（odpscmd）执行如下命令创建表 loghub，用于存储上传的日志数据。打开新类型数据开关，此命令...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据...

基于Flink+Hologres搭建实时数仓

您可以通过不同的计算组实现资源隔离，使用初始计算组init_warehouse用于写入数据，使用read_warehouse_1计算组用于服务查询。预留计算资源会全部分配给初始计算组init_warehouse，需先减少计算组资源，再新增计算组。详情请参见场景1：...

什么是DataWorks

中国国际大数据产业博览会十佳大数据案例中国信通院：数据集成工具、数据管理工具、数据开发平台、数据脱敏工具、数据分类分级等评测学习路径您可以通过DataWorks文档首页的学习路径，快速了解DataWorks的相关概念、基础操作及进阶操作...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，...在混合云架构下，机密数据在专有云内完成，云端的大规模数据的计算则通过MaxCompute完成，定位数据的播发在公共云上完成。

选型配置说明

Data-Service节点的选型 Data-Service节点主要用于数据计算，包含了Data Warehouse，Machine Learning和Data Engineering（Spark）三种服务。一个集群中至少部署3台Data-Service节点，且节点配置至少为16 core，内存128GB。

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

数据加工过程卡点校验

例如，对于财务报表，如果业务系统的改造影响财务报表的计算，导致约定好的计算口径被业务系统变更修改，则这种情况必须告知离线开发人员，离线开发人员也必须主动关注这类发布变更通知。说明发布平台不是指阿里云提供的发布平台，只是一...

产品简介

计算巢AppFlow是计算巢平台上的一种高效的应用集成和自动化工具，旨在提升企业的工作流程自动化和数据流管理效率。AppFlow通过提供易于使用的界面和强大的后端逻辑，允许用户无需深入编程即可设计、部署和监控各种自动化任务和数据流。本...

资源规划及规格选型

需要购买的计算资源数量需要根据按照计存比规划计算资源或按照项目实际消耗的计算资源数量规划计算资源进行预估。计算资源规划依据方式一：按照计存比规划计算资源先预估数据存储量及计存比，然后再预估最低需要购买的计算资源数量。...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言，其语法类似于标准SQL，但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于大规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...

客户案例

客户需求海量数据处理效率下降，离线数据计算时长不稳定。实时计算不开发维护代价大，希望对数仓进行综合治理。价值体现基于飞天大数据平台产品，快狗打车不仅机器成本节约30%以上，数据开发效率提升100%。从Java Storm迁移到Flink SQL使...

什么是阿里云实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台，提供端到端亚秒级实时数据分析能力，并通过标准SQL降低业务开发门槛，助力企业向实时化、智能化大数据计算升级转型。产品概述阿里云实时计算Flink版是一种全...

实时数据消费概述

实时数据消费功能包含高速数据导入API和实时数据源消费两部分，可...被写入数据不经过协调节点，而是直接通过计算节点写入，较大幅度提升写入吞吐。相较于SQL写入（UPSERT或UPDATE）方式，具有更高的性能。写入过程对Master几乎不产生负载。

整体架构

在周边生态上，提供数据迁移、数据同步、数据管理、数据集成、数据安全等配套工具，方便使用，使您能更加专注于业务发展。湖仓版（3.0）在数仓版（3.0）基础上，同时满足低成本离线处理和高性能在线分析的湖仓一体化版本，称为湖仓版（3....