大数据系统-大数据系统文档介绍内容-移动阿里云

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据同步系统与ClickHouse的网络交互次数，并提升整体吞吐量。如果该值设置过大，会导致数据同步运行进程OOM异常。否 1,024

Oracle数据源

由于主备数据同步存在一定的时间差，在网络延迟等特定情况下，会导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 Oracle在数据存储划分中属于RDBMS系统，对外可以提供强一致性数据查询...

系统管理

本文为您介绍如何在系统管理中配置SQL查询、数据上传任务所使用的资源组。使用限制仅支持阿里云主账号访问系统管理页面。系统管理中的配置仅在本租户的当前地域生效，并且您需确保SQL查询、数据上传任务使用的数据源和资源组网络连通。...

ApsaraDB For OceanBase数据源

ApsaraDB for OceanBase数据源提供读取和写入...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据同步系统与服务器端的网络交互次数，并提升整体吞吐量。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 1,024

SET操作

MaxCompute支持在Session级设置MaxCompute系统变量，本文为您介绍如何设置及查看MaxCompute系统变量，影响MaxCompute的行为。set操作相关命令如下。类型功能角色操作入口 set 对当前Session设置MaxCompute系统变量。具备项目空间操作...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

配置规则：按模板（批量）

数据质量提供系统内置的表级规则模板和字段规则模板，您可以单击对应模板后的配置监控规则来批量对表或字段配置监控规则。配置监控规则选择需要进行规则配置的模板，单击操作列的配置监控规则，进入该模板的批量新增监控规则页面...

Broker Load

HDFS文件系统数据导入以上面创建好的Doris表为例，通过Broker Load从HDFS上导入数据的语句如下所示。LOAD LABEL demo.label_20220402(DATA INFILE("hdfs:/10.220.*.*:8020/tmp/test_hdfs.txt")INTO TABLE `ods_dish_detail_test` COLUMNS ...

SET

某些UDF在内存计算、排序的数据量比较大时，会报内存溢出错误，这时候可以调大该参数，但该方法只能暂时缓解，您需要从业务上去优化UDF代码。取值范围：256 MB~12288 MB。默认值为1024 MB。odps.sql.udf.timeout 设置UDF超时时间。取值范围...

数据加工过程卡点校验

本文为您介绍在线或离线业务系统的数据在生成过程中进行的卡点校验。在线系统卡点校验在线业务系统产生的数据是数据仓库的重要数据来源。在线业务系统复杂多变，每次变更都会产生数据的变化。因此，数据仓库需要适应多变的业务发展，及时...

扩容磁盘

当E-MapReduce集群的数据存储空间不足时，您可以根据本文进行磁盘（数据盘和系统盘）扩容。本文为您介绍如何对磁盘进行扩容。背景信息根据E-MapReduce版本和磁盘属性不同，E-MapReduce支持的磁盘扩容方式也不同，具体说明如下：数据盘：...

系统管理

方式二进入智能数据建模>数仓规划>系统管理，查看当前工作空间的建表策略。若当前工作空间被指定为其他建模空间的研发空间，您需进入建模空间，查看符合要求的建表策略。在智能数据建模中先建模再将其发布为物理表。如您需继续提交、发布...

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例，介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell 对于文件较少或者数据量较小的场景，可以直接使用Hadoop的FsShell进行同步：hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

减灾与应急时空解决方案与案例

公司主营OpenRIS灾害风险大数据平台提供了海量灾害数据的快速地图展示、统计查询、切割下载、上传数据定制化在线分析等功能，实现了灾害数据与模型一体化云服务。在数据与系统上云过程前，遇到了如下挑战：长期积累的时空数据类型多、数据...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案，可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表，同时自动对数据进行分区和压缩，方便您分析和审计对云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

高压缩引擎（X-Engine）介绍

MySQL作为世界上使用最广泛的开源数据库系统，一直缺乏一个既能满足大容量低成本要求，又具备一定读写能力的历史数据归档存储方案。虽然业界曾经推出过一些高压缩引擎，如TokuDB、MyRocks等，但受限于单物理机磁盘容量限制，存储的数据量...

概述

增大151.7%3.02GB AVRO Hadoop生态格式的数据，数据由大部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据，数据由大部分遗留系统产生。减少2.5%1.17GB Parquet Hadoop生态格式的数据。数据采用高性能的列存储格式，提升数据...

系统表说明

系统表存储于System数据库中，仅提供数据读取功能，不能被删除或更改，但可以对其进行分离（detach）操作。大多数系统表将其数据存储在RAM中，一个ClickHouse服务在刚启动时便会创建此类系统表。本文为您介绍E-MapReduce（简称EMR）中常用...

产品和业务限制

限制项描述例外申请方式购买分析型数据库MySQL版的限制账户余额大于等于500元现金请联系技术支持开通分析型数据库MySQL版的用户限制用户需实名认证无可创建的最大分析型数据库MySQL版数 3个联系技术支持申请更多单个分析型数据...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

技术面临的挑战与革新

分布式事务与集中式事务的优劣事务处理是数据库保证ACID语义的核心功能，因为数据库系统需要处理大量的并发事务，为了保证并发事务能够尽可能高效的并发执行而又互不干扰，发展出若干种技术，比如多版本并发处理(MVCC)，乐观并发处理(OCC)...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

PolarDB HTAP实时数据分析技术解密

其在大数据量上运行复杂查询的性能可以与Oracle、SQL Server等业界商用数据库系统处在同一水平。In-Memory Column Index的技术架构行列混合的优化器 PolarDB原生有一套面向行存的优化器组件。在引擎层增加列存功能后，此部分需要进行功能...

产品架构

如下图所示，与传统方案相比，Lindorm系统极大地简化数据存储技术架构设计，大幅度提升系统稳定性，降低建设成本投入。总体架构 Lindorm创新性地使用存储计算分离、多模共享融合的云原生架构，以适应云计算时代资源解耦和弹性伸缩的诉求。...

概述

DataWorks（数据工场，原大数据开发套件）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

分析业务过程

为梳理数据之间的逻辑关系和流向，需要理解用户的业务过程及数据系统。您可以采用过程分析法，列出整个业务过程涉及的每个环节，包括技术、数据、系统环境等。分析完企业的工作职责范围（部门）后，借助工具通过逆向工程抽取业务系统的真实...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...