大数据优化软件-大数据优化软件文档介绍内容-移动阿里云

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

2019年

支持的数据库 优化数据订阅的在线查询功能，提升数据订阅的使用体验。此功能已下线升级全量数据迁移功能，优化任务断点重启逻辑，实现接近无损的断点重启。无 2019年5月支持新版数据订阅功能。数据订阅（新版）支持迁移/同步/订阅MySQL 8...

离线数据处理

想用AnalyticDB进行离线数据处理？本篇实践教程通过详细的分步指南与代码示例，清晰讲解核心操作流程，助您快速构建并优化数据处理任务。

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

2024年

Web端监控关联前后端Trace 可观测监控 Prometheus 版数据投递新增 Prometheus数据投递服务全球地域开服，支持将Prometheus数据通过公网或内网方式投递到阿里云云消息队列 Kafka 版、云原生大数据计算服务 MaxCompute、Prometheus Remote...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。在私有OSS环境准备步骤中创建的OSS对象存储的 Bucket 将用于接收MySQL数据源的用户信息数据与...

数据导入

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

升级告用户书

数据清理和数据归档功能：为了帮助您优化数据库的存储和管理，我们提供了数据清理和数据归档的功能，您可以根据数据的使用频率和重要性，将数据进行分离和清理，以提高数据库的性能和效率。产品交互优化：我们优化了SQL控制台的布局，以...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

2023年

本文介绍2023年云原生数据仓库AnalyticDB PostgreSQL版 Serverless实例的内核功能发布记录。您可以在云原生数据仓库AnalyticDB PostgreSQL版控制台将实例升级至最新发布的小版本。升级小版本的具体操作，请参见版本升级。2023年10月（V...

DLF Catalog数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

数据库性能

数据管理DMS整合了数据库自治服务DAS的部分功能，可以帮助您掌握数据库实例的性能状况，快速、精准、有效地优化数据库服务。前提条件如果您的数据库的管控模式为自由操作或稳定变更，并且您拥有实例的登录权限，当您登录目标实例后您将...

配置数据库的列加密

数据安全中心 DSC（Data Security Center）支持对RDS MySQL、RDS PostgreSQL、PolarDB MySQL、PolarDB PostgreSQL、PolarDB PostgreSQL（兼容Oracle）、PolarDB-X 2.0等数据库类型的数据列进行加密配置，确保数据库中敏感列数据加密后存储...

使用须知

购买图数据库GDB实例后，您不需要做数据库的基础运维（例如高可用、安全补丁等），但需要注意图数据库GDB...性能优化如果GDB实例的CPU核数、内存、IOPS、存储空间和连接数不足时，可能会影响到数据库的性能，需要您优化数据或升级实例规格。

产品优势

无优化，数据集成需要较大开发。MaxCompute 产品化集成，请参见全量导出MaxCompute。数据集成需要较大开发。日志服务（SLS）请参见 LTS（原BDS）服务介绍，支持SLS数据到HBase的日志服务（SLS）增量导入。数据集成需要较大开发。服务能力...

API概览

本产品（大数据开发治理平台 DataWorks/2024-05-18）的OpenAPI采用 RPC 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能...

关键特性

开放OS系统 MyBase 提供了自主性和灵活性，使用定制化脚本上传、下载、安装软件，满足中大型企业定制化数据库服务需求，详情请参见主机权限说明、通过堡垒机访问主机（Linux）、通过堡垒机访问主机（Windows）。用户级别资源隔离专属集群...

概述

PolarDB-X 兼容MySQL的导入导出语法，本文总体介绍了 PolarDB-X 支持的几种数据导入导出方式。导入方式 SOURCE语句 source命令导入数据库需要先登录到数据库终端：create database abc;...如何选择导入导出工具请参见如何优化数据导入导出。

规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

数据源配置常见问题

本文介绍在DataV中连接数据源时，遇到的常见问题及相应的解决方法。数据库连接不成功，如何解决？请根据数据库的网络类型和所在地域，将相应的DataV服务器IP地址加入到您的数据库白名单或ECS的安全组设置中，或者使用代理工具来连接您的...

优化器

MaxCompute的优化器是基于代价的优化器，需要基于数据的一些特征（即元数据），例如行数、字符串平均长度，准确估算代价。本文为您介绍MaxCompute收集元数据的方法，为优化查询性能提供帮助。背景信息如果获取不到准确的元数据，优化器会...

最佳实践

适用场景需要对接分布式数据库的用户的应用场景总是多种多样的。PolarDB-X 2.0结合新老应用的库表使用、SQL复杂情况以及对性能吞吐的要求，将用户的应用场景大体上划分为四种典型类型，如下表所示：应用类型示例总体概况 SQL 特点大量...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

RDS与自建数据库对比优势

云数据库RDS提供高可用、高可靠、高安全、可扩展的托管数据库服务，在性能等同于商业数据库的同时，其价格相比ECS自建数据库和自购服务器搭建数据库更加低廉，能够节约大量部署及维护成本。RDS与自建数据库对比优势 RDS MySQL与自建数据库...

EMR Studio（已不支持新购）

EMR Studio核心优势优势描述兼容开源 EMR Studio提供深度优化的开源组件使用体验，100%兼容开源大数据生态。您无需修改任务代码，即可平滑迁移上云。通过EMR Studio数据开发工作台，您可以在开源组件原生UI的基础上无缝衔接开发环节和...

数据库代理发布记录

当前 PolarDB MySQL版数据库代理包含 1.x.x 和 2.x.x 两大版本，两个版本的区别如下：1.x.x 2021年2月1日前创建的集群下的数据代理版本，该版本不再进行新功能迭代开发，只进行问题修复。2.x.x 2021年2月1日（包含）后新创建的集群下的...

预排序

因此，使用预排序功能够大幅度提升数据检索性能，优化搜索引擎的服务能力。本章节介绍使用预排序功能的操作步骤。操作步骤修改solrconfig.xml中的MergePolicy，具体请参见 Customizing Merge Policies。查询时，指定参数...

新零售行业解决方案

方案价值：基于阿里云ADAM和 PolarDB PostgreSQL版（兼容Oracle）替代商业版数据库，优化IT的成本结构，每年不但节省大量License授权费用，并且极大地提升了系统可用性应用和数据库都部署在云上，可以充分利用云资源的弹性能力，解决网络...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

百华悦邦

客户价值基于阿里云ADAM和 PolarDB PostgreSQL版（兼容Oracle）替代商业版数据库，优化IT的成本结构，每年不但节省大量License授权费用，并且极大地提升了系统可用性。应用和数据库都部署在云上，可以充分利用云资源的弹性能力，解决网络...

通过 HyperLoglog 实现高性能多维数据透视

结合以上优化，不管数据量多大，单次透视请求的响应速度都可以控制在100毫秒以内。通过预计算优化，希望得到以下结果：t_result(day,-日期 brand,-品牌 ID groupid,-渠道、地区、门店 ID tag1,-标签类型1 tag2,-标签类型2 tag3,-标签类型3....

全密态数据库（公测）

从安全视角来看，云数据库能防护安全威胁，其安全性由弱到强可分为以下几个阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，能够拦截绝大部分外部攻击，但仍然需要信任数据库实例内的操作系统、数据库软件、IaaS运维...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

图扑案例

利用Lindorm自研的数据压缩存储和存储优化能力，海量低价值密度的监控数据存储成本也有大幅度降低。为适应日趋复杂化多样化的终端设备、边缘设备、传感器以及第三方系统数据源采集、上报的异构数据，如图3所示，阿里云原生多模数据库 ...

全密态数据库（公测）

从安全视角，云数据库能防护的安全威胁，安全性由弱到强可分为以下几个安全分级阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，能够拦截绝大部分外部攻击，但仍然需要信任数据库集群内的操作系统、数据库软件、IaaS运...