大数据系统-大数据系统文档介绍内容-移动阿里云

自动快照概述

应用场景自动快照策略可以在预设的时间点周期性地创建快照，保护文件系统数据，是系统安全性和容错率的重要保障。当您的数据库出现异常时，您可能来不及手动创建快照。这时您可以通过最近的自动快照来恢复数据库文件系统，降低损失。您也...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

2024年

MaxCompute近实时增全量一体化架构介绍 2024-04-24 新增基于MaxFrame实现大语言模型数据处理新说明相较于昂贵的GPU资源，MaxCompute的海量弹性CPU资源能够成为LLM海量数据处理的资源基础，而MaxFrame分布式计算能力可以帮助您更加高效、...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

新建Doris数据源

在新建数据源对话框的 大数据存储区域，选择Doris。如果您最近使用过Doris，也可以在最近使用区域选择Doris。同时，您也可以在搜索框中，输入Doris的关键词，快速筛选。在新建Doris数据源对话框中，配置连接数据源参数。配置数据源的...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

数据质量概述

功能介绍数据质量支持对常见大数据存储（MaxCompute、E-MapReduce Hive、Hologres等）进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度，配置质量监控规则。并可以将质量监控规则与调度节点进行关联，当任务...

创建快照

数据库文件系统快照基于云盘快照，它是一种便捷高效的数据容灾手段，用于对文件系统的数据进行备份。前提条件进行快照创建时，数据库文件系统必须处于已挂载或待挂载状态。说明如果文件系统处于待挂载的状态，则需要保证文件系统有...

应用场景

解决方案：数据同步：通过数据同步功能，将不同业务系统数据汇聚到统一的存储计算引擎，实现数据的初步融合。数据标准：管理数据标准和构建数据模型，将数据标准贯彻到数据质量分析、保障及检查的全过程中，将散乱的多源异构数据加工成标准...

客户案例

然而大数据的并行查询不能拖垮系统中的高优先级的小请求，并且当 MySQL 单表数据规模超过 2000 万时，其查询性能就出现断崖式的下跌，这也是业务无法容忍的一大缺陷，因此，我们在系统选型上更倾向于 OceanBase 这样具有高吞吐，数据读写...

产品概述

可视化的数据资产：系统化构建业务数据资产大图，从数据视角还原业务系统、提取业务数据，快速感知业务关键环节及数据。数据使用简单可依赖：通过主题式数据查询服务，您可以快速查询和访问研发构建的数据逻辑表，简化约80%的查询代码。...

LogHub（SLS）实时ETL同步至Hologres

由于同步任务的性能表现和资源占用受到实际源端和目标端系统数据流量、网络环境和系统负载等因素影响，您可以基于上述简单规则，根据实际情况进行调整和修改。模拟运行完成上述所有任务配置后，您可以通过模拟运行功能，模拟整个任务...

Kafka单表实时入湖OSS（HUDI）

由于同步任务的性能表现和资源占用受到源端和目标端系统数据流量、网络环境和系统负载等因素影响，基于上述简单规则，您可以根据实际情况做调整和修改。报警配置。为能够及时感知到同步任务的异常并做出响应和处理，您可以对同步任务设置...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

版本发布记录

本文介绍云原生数据湖分析DLA的产品功能动态。2021年6月类别功能点描述相关文档集群管理监控报警 Spark集群支持监控报警。...接入MNS和ONS消息系统接入MNS和ONS消息系统，能够极大提升数据湖数据处理扭转和业务集成的便利性。

什么是Dataphin

可视化的数据资产：系统化构建业务数据资产大图，从数据视角还原业务系统、提取业务数据，快速感知业务关键环节及数据。数据使用简单可依赖：通过主题式数据查询服务，您可以快速查询和访问研发构建的数据逻辑表，简化约80%的查询代码。...

配置跨库Spark SQL节点

系统在计算数据量过大且缺失主键的表时，会导致内存溢出或内存耗尽（OOM）。周期调度节点最近一次运行成功后，若连续运行失败10次及以上，离线集成任务直接执行失败，且不会再提交Spark任务。此时，您需要手动运行成功该任务节点。应用场景...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

配置离线数据集成节点

使用限制系统在计算数据量过大且缺失主键的表时，会导致内存溢出或内存耗尽（OOM）。周期调度节点最近一次运行成功后，若连续运行失败10次及以上，离线集成任务直接执行失败，且不会再提交Spark任务。此时，您需要手动运行成功该任务节点...

发展历程

MaxCompute通过全国首批大数据平台稳定性认证，被证明为韧性型系统。深度参与和推动全球大数据领域标准化建设 MaxCompute代表阿里巴巴计算平台，成为国际TPC（Transaction Processing Performance Council）委员会大数据评测标准BigBench的...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。...数据展现与分享：数据提取成功后，可以通过报表、地理信息系统等多种展现方式，展示与分享大数据分析、处理后的成果。

概述

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

RDS SQL Server空间不足问题

说明系统文件空间使用量包括系统数据库master、msdb和model的所有数据文件和日志文件，以及一些系统文件（错误日志、默认跟踪文件、系统扩展事件文件等）。您可以在控制台的自治服务>空间管理页面，查看更详细的空间使用情况，包括数据...

数据集成概述

说明以业务数据库数据同步到MaxCompute数据仓库为例，当有大量的数据存储在数据库系统里，需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时，数据集成传统方式是通过全量同步或者依赖数据库表中的 modify_time 等字段进行...

应用场景

大型促销类业务大型促销秒杀系统，系统整体访问压力非常大。一般的数据库根本无法承载这样的读取压力，可选用云数据库 Memcache 版存储。带有计数器的库存系统云数据库 RDS 与云数据库 Memcache 版搭配使用。RDS 存储具体数据信息，数据...

聚合支付：Ping+

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍Ping+如何通过 PolarDB-X 应对业务挑战。所属行业...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

数据导入性能优化

保证数据源的数据生产速度足够大，如果数据源来自其他系统或文件，排查客户端是否有输出瓶颈。保证数据处理速度，排查数据生产消费是否同步，保证有足够的数据等待导入 AnalyticDB MySQL。保证客户端机器负载，检查CPU使用率或磁盘IO使用率...

数据导入性能优化

保证数据源的数据生产速度足够大，如果数据源来自其他系统或文件，排查客户端是否有输出瓶颈。保证数据处理速度，排查数据生产消费是否同步，保证有足够的数据等待导入 AnalyticDB MySQL。保证客户端机器负载，检查CPU使用率或磁盘IO使用率...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...